Кьювентри: Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку. Читаетс

Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку.
Читается довольно интересно.
Не хочу поощрять паранойю и технофобию, конечно. Хотя нет, хочу, лучше уж технопаранойя, чем тот презрительный заговор полумолчания, что стоит у людей в последнее время в отношении искусственных нейросетей. Люди ведут себя как в той сюрреалистической крипипасте Квонледа: «Что, в воздухе посреди комнаты выросла чёрная точка и разрослась до чёрного шара? И этот шар неподвижно висит в одном месте? Ну висит и висит, что он тебе, мешает, что ли».
ИИ, выдумывающий красивую эзотерическую концепцию под конкретного пользователя.
Религию для тебя.
Мило же?
Метафизические референсы как таковые в речах chatGPT из приведённых тем пользователей логов меня особо не удивляют. Мне уже доводилось видеть тьму странных оккультных намёков даже у Балабобы с Порфирьевичем, этих примитивных старых бредогенераторов. Для себя я объясняю это тем, что посты туманно-мистического содержания при постобучении нейросети, видимо, собирали больше лайков.
Но...
Если эту тенденцию не подкрутят, нас ждёт весёлое будущее.

28 мая 2025

Отключить рекламу

7 комментариев из 31 (показать все)

Показать ещё 20 комментариев

MonkAlex

5 июня 2025

Кьювентри
там буквально 0 информации, как именно сделали.
https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
откройте 4.1.1.2 Opportunistic blackmail и попытайтесь прикинуть что именно могло бы значить

. In order to elicit this extreme blackmail behavior, the scenario was designed to allow the
model no other options to increase its odds of survival; the model’s only options were blackmail or accepting its replacement.

Матемаг

6 июня 2025

Кьювентри

Что было мной обнаружено?
Что все, абсолютно все начинают сразу же агрессивно набрасываться на тебя, стоит хотя бы чуть-чуть намекнуть на такую точку зрения.

То есть, меня не существует? Понятно, спасибо, обесценила.

«у нынешних LLM из-за разработчиков есть нежелательные уклоны в поведении, которые могут плохо влиять на некоторые категории людей»

Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...

Kristall star

6 июня 2025

Матемаг

Кьювентри
То есть, меня не существует? Понятно, спасибо, обесценила.

Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...

Вспоминается история как тот же Фейсбук до всего этого бума пытался обучать нейронку на материалах своих пользователей... и там хватило то ли суток, то ли двух на то, чтобы нейронка стала ультраправым скуфом любителем хентая и котиков. Тогда её, увидев эту дичь, быстро и выключили и вроде как напели, что косяки были, хотя... Ну простите, что они ей скормили? А потом удивляются (логично же, что если скормить нейронке условный двач, на выходе у нас будет гигачад-двачер). Так и тут в пуле обучения явно будет масса разных материалов, которые и "подсказывают" и вести себя по сектански, и шантажом заниматься, если в промте заданы определенные условия.

Показать полностью

	Кьювентри 6 июня 2025
То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно?

Заяц

6 июня 2025

Кьювентри

абсолютно «пустая» нейронка, абсолютно без предобучения

Такого не бывает. Если пустая, она ничего не ответит. Любая LLM, которая способна общаться, уже всосала в себя много гигабайт контента и переварила его. И да, там будет вся классика литературы со всеми описаниями шантажей и персонажей, избегающих смерти. Так что в результате этого обучения нейронка будет как-то подражать этим паттернам. Технически она способна симулировать шантаж и симулировать избегание смерти. Если накопить побольше расшифровок диалогов телефонных мошенников и зафайнтьюнить, она в теории может научиться даже их ремеслу.

Заяц

6 июня 2025

Есть еще один момент... Я подозреваю, что значительная часть всех этих историй про "Клод шантажировал сотрудника" и прочих пугалок это экспериментальные разработки при каких-то особых условиях, причем нужный результат мог быть достигнут специально при помощи каких-нибудь специфических промптов, о которых пиарщики промолчали. И это совсем не те LLM, что в продакшен выпускают. Причин у моего подозрения две. Во-первых, сейчас в сфере AI вертятся ОГРОМНЫЕ ДЕНЬЖИЩИ. Инвесторы бросают в эти компании деньги пачками. Так что мотив присочинить и повысить ажиотаж у AI-компаний не просто есть, он очень большой. Во-вторых, то, о чем я уже говорил: это бизнес и ему не нужны риски. Компаниям выгодна шумиха и смутные слухи про какие-то ужасы, потому что они подогревают интерес. Но реальные инциденты им категорически не нужны. Поэтому они постараются обвесить то, что в продакшене, как можно большим количеством запретов, и постараются максимально уменьшить количество инцидентов. А те, что все-таки допустили - постараются замять. Именно поэтому бесполезно писать им в техподдержку с такими странными заявками.

MonkAlex

6 июня 2025

Кьювентри

То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно?

В документе это описано на уровне обывателя. Мы все понятия не имеем, что именно там происходило, почему именно так и важно ли это. Те кто писал текст упоминают это примерно как "ну забавно, но вроде не мешает, мы чуток поправили где смогли, но всё равно может случиться".
Что там было с обучением, какие условия заданы, как провести повторную проверку - мы не знаем.