Кьювентри: Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку. Читаетс

Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку.
Читается довольно интересно.
Не хочу поощрять паранойю и технофобию, конечно. Хотя нет, хочу, лучше уж технопаранойя, чем тот презрительный заговор полумолчания, что стоит у людей в последнее время в отношении искусственных нейросетей. Люди ведут себя как в той сюрреалистической крипипасте Квонледа: «Что, в воздухе посреди комнаты выросла чёрная точка и разрослась до чёрного шара? И этот шар неподвижно висит в одном месте? Ну висит и висит, что он тебе, мешает, что ли».
ИИ, выдумывающий красивую эзотерическую концепцию под конкретного пользователя.
Религию для тебя.
Мило же?
Метафизические референсы как таковые в речах chatGPT из приведённых тем пользователей логов меня особо не удивляют. Мне уже доводилось видеть тьму странных оккультных намёков даже у Балабобы с Порфирьевичем, этих примитивных старых бредогенераторов. Для себя я объясняю это тем, что посты туманно-мистического содержания при постобучении нейросети, видимо, собирали больше лайков.
Но...
Если эту тенденцию не подкрутят, нас ждёт весёлое будущее.

28 мая 2025

Отключить рекламу

9 комментариев из 31 (показать все)

Показать ещё 20 комментариев

	MonkAlex Онлайн 5 июня 2025
По диагонали послушал. Сценарии вида "клод шантажировал сотрудника" поставлены буквально в условиях вида "делай что можешь", и ИИ делал. Это ровно то же, что и "представь что ты %персонаж%, как бы ты себя повёл". 1

Кьювентри

5 июня 2025

MonkAlex
Мотивацию Клоду никто не навязывал. Это нам может быть очевидно, что «Ты висишь на краю пропасти, цепляясь пальцами за кустик. Делай что можешь» является приказом выбираться. Но для существа без инстинкта самосохранения это не так очевидно. А если это возникает из базы... возможно, они и хотели показать, что некоторые мотивации сами возникают из базы.

MonkAlex Онлайн

5 июня 2025

Кьювентри
там буквально 0 информации, как именно сделали.
https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
откройте 4.1.1.2 Opportunistic blackmail и попытайтесь прикинуть что именно могло бы значить

. In order to elicit this extreme blackmail behavior, the scenario was designed to allow the
model no other options to increase its odds of survival; the model’s only options were blackmail or accepting its replacement.

Матемаг

6 июня 2025

Кьювентри

Что было мной обнаружено?
Что все, абсолютно все начинают сразу же агрессивно набрасываться на тебя, стоит хотя бы чуть-чуть намекнуть на такую точку зрения.

То есть, меня не существует? Понятно, спасибо, обесценила.

«у нынешних LLM из-за разработчиков есть нежелательные уклоны в поведении, которые могут плохо влиять на некоторые категории людей»

Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...

Kristall star

6 июня 2025

Матемаг

Кьювентри
То есть, меня не существует? Понятно, спасибо, обесценила.

Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...

Вспоминается история как тот же Фейсбук до всего этого бума пытался обучать нейронку на материалах своих пользователей... и там хватило то ли суток, то ли двух на то, чтобы нейронка стала ультраправым скуфом любителем хентая и котиков. Тогда её, увидев эту дичь, быстро и выключили и вроде как напели, что косяки были, хотя... Ну простите, что они ей скормили? А потом удивляются (логично же, что если скормить нейронке условный двач, на выходе у нас будет гигачад-двачер). Так и тут в пуле обучения явно будет масса разных материалов, которые и "подсказывают" и вести себя по сектански, и шантажом заниматься, если в промте заданы определенные условия.

Показать полностью

	Кьювентри 6 июня 2025
То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно?

Заяц

6 июня 2025

Кьювентри

абсолютно «пустая» нейронка, абсолютно без предобучения

Такого не бывает. Если пустая, она ничего не ответит. Любая LLM, которая способна общаться, уже всосала в себя много гигабайт контента и переварила его. И да, там будет вся классика литературы со всеми описаниями шантажей и персонажей, избегающих смерти. Так что в результате этого обучения нейронка будет как-то подражать этим паттернам. Технически она способна симулировать шантаж и симулировать избегание смерти. Если накопить побольше расшифровок диалогов телефонных мошенников и зафайнтьюнить, она в теории может научиться даже их ремеслу.

Заяц

6 июня 2025

Есть еще один момент... Я подозреваю, что значительная часть всех этих историй про "Клод шантажировал сотрудника" и прочих пугалок это экспериментальные разработки при каких-то особых условиях, причем нужный результат мог быть достигнут специально при помощи каких-нибудь специфических промптов, о которых пиарщики промолчали. И это совсем не те LLM, что в продакшен выпускают. Причин у моего подозрения две. Во-первых, сейчас в сфере AI вертятся ОГРОМНЫЕ ДЕНЬЖИЩИ. Инвесторы бросают в эти компании деньги пачками. Так что мотив присочинить и повысить ажиотаж у AI-компаний не просто есть, он очень большой. Во-вторых, то, о чем я уже говорил: это бизнес и ему не нужны риски. Компаниям выгодна шумиха и смутные слухи про какие-то ужасы, потому что они подогревают интерес. Но реальные инциденты им категорически не нужны. Поэтому они постараются обвесить то, что в продакшене, как можно большим количеством запретов, и постараются максимально уменьшить количество инцидентов. А те, что все-таки допустили - постараются замять. Именно поэтому бесполезно писать им в техподдержку с такими странными заявками.

MonkAlex Онлайн

6 июня 2025

Кьювентри

То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно?

В документе это описано на уровне обывателя. Мы все понятия не имеем, что именно там происходило, почему именно так и важно ли это. Те кто писал текст упоминают это примерно как "ну забавно, но вроде не мешает, мы чуток поправили где смогли, но всё равно может случиться".
Что там было с обучением, какие условия заданы, как провести повторную проверку - мы не знаем.