Кьювентри: Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку. Читаетс

Сейчас еще немного проглядел по диагонали.

"Исследователи поймали ИИ на лжи. Он соврал намеренно и начал манипулировать"
https://naked-science.ru/article/psy/issledovateli-pojmali-ii

Господи, это такой бред и антропоморфизм. Нейросеть именно что не способна лгать. Она вообще не способна отделять "правду" от "лжи". Потому что у нее есть поток символов на входе и поток на выходе. И все. Интерпретировать этот поток как "правду" или "ложь" могут только люди. Если нейросети скормить промпт с установкой "лгать" она будет "лгать", как она это понимает. Но у нее нет никакой выгоды с этого. Она не человек, который лжет корыстно. Это все равно что роман, который пишет сам себя по правилам. Ничего личного в этом процессе нет. Кроме того, что у нее нет никакой корысти, у нейросети нет никакой личности. Опять же, в промпт можно добавить такую "личность" и нейросеть начнет ее отыгрывать в меру обучения. Но никаких реальных психических состояний, эмоций за отыгрышем нет. Наконец, у нейросети нет контакта с реальностью. Когда человеку рассказывают что-то бредовое, он старается сверить это с реальностью. Потому что реальность одна на всех, это общий тест для всех идей и концепций. Она может отделить правду от лжи. А нейросеть не может выйти в реальность и сравнить свое внутреннее состояние с окружающим миром. Во всяком случае, текущие архитектуры не могут.

Показать полностью

Насколько я знаю, данные по нейросетям постоянно устаревают. То, что считалось правдой ещё недавно, неожиданно оказывается заблуждением. Считалось, что нейросети выдумывают текст от первого слова к последнему, а вдруг выясняется, что нет. Считалось, что у них нет модели реальности, а выясняется... хотя ладно, то место видеоролика мне не совсем понятно, лучше просто кину ссылки на те ролики, где это мелькало:
https://www.youtube.com/watch?v=q6jrIPT1_P8
https://www.youtube.com/watch?v=iHu30aC2D0Y

	MonkAlex 5 июня 2025
Кьювентри тайминги хотя бы есть? А то 20 минут чуши от какой то девочки в интернете слушать не хочется

	MonkAlex 5 июня 2025
По диагонали послушал. Сценарии вида "клод шантажировал сотрудника" поставлены буквально в условиях вида "делай что можешь", и ИИ делал. Это ровно то же, что и "представь что ты %персонаж%, как бы ты себя повёл". 1

MonkAlex
Мотивацию Клоду никто не навязывал. Это нам может быть очевидно, что «Ты висишь на краю пропасти, цепляясь пальцами за кустик. Делай что можешь» является приказом выбираться. Но для существа без инстинкта самосохранения это не так очевидно. А если это возникает из базы... возможно, они и хотели показать, что некоторые мотивации сами возникают из базы.

MonkAlex

Кьювентри
там буквально 0 информации, как именно сделали.
https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
откройте 4.1.1.2 Opportunistic blackmail и попытайтесь прикинуть что именно могло бы значить

. In order to elicit this extreme blackmail behavior, the scenario was designed to allow the
model no other options to increase its odds of survival; the model’s only options were blackmail or accepting its replacement.

Матемаг

Что было мной обнаружено?
Что все, абсолютно все начинают сразу же агрессивно набрасываться на тебя, стоит хотя бы чуть-чуть намекнуть на такую точку зрения.

То есть, меня не существует? Понятно, спасибо, обесценила.

«у нынешних LLM из-за разработчиков есть нежелательные уклоны в поведении, которые могут плохо влиять на некоторые категории людей»

Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...

Kristall star

Матемаг

Кьювентри
То есть, меня не существует? Понятно, спасибо, обесценила.

Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...

Вспоминается история как тот же Фейсбук до всего этого бума пытался обучать нейронку на материалах своих пользователей... и там хватило то ли суток, то ли двух на то, чтобы нейронка стала ультраправым скуфом любителем хентая и котиков. Тогда её, увидев эту дичь, быстро и выключили и вроде как напели, что косяки были, хотя... Ну простите, что они ей скормили? А потом удивляются (логично же, что если скормить нейронке условный двач, на выходе у нас будет гигачад-двачер). Так и тут в пуле обучения явно будет масса разных материалов, которые и "подсказывают" и вести себя по сектански, и шантажом заниматься, если в промте заданы определенные условия.

Показать полностью

	Кьювентри 6 июня 2025
То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно?

Заяц

абсолютно «пустая» нейронка, абсолютно без предобучения

Такого не бывает. Если пустая, она ничего не ответит. Любая LLM, которая способна общаться, уже всосала в себя много гигабайт контента и переварила его. И да, там будет вся классика литературы со всеми описаниями шантажей и персонажей, избегающих смерти. Так что в результате этого обучения нейронка будет как-то подражать этим паттернам. Технически она способна симулировать шантаж и симулировать избегание смерти. Если накопить побольше расшифровок диалогов телефонных мошенников и зафайнтьюнить, она в теории может научиться даже их ремеслу.

Заяц

Есть еще один момент... Я подозреваю, что значительная часть всех этих историй про "Клод шантажировал сотрудника" и прочих пугалок это экспериментальные разработки при каких-то особых условиях, причем нужный результат мог быть достигнут специально при помощи каких-нибудь специфических промптов, о которых пиарщики промолчали. И это совсем не те LLM, что в продакшен выпускают. Причин у моего подозрения две. Во-первых, сейчас в сфере AI вертятся ОГРОМНЫЕ ДЕНЬЖИЩИ. Инвесторы бросают в эти компании деньги пачками. Так что мотив присочинить и повысить ажиотаж у AI-компаний не просто есть, он очень большой. Во-вторых, то, о чем я уже говорил: это бизнес и ему не нужны риски. Компаниям выгодна шумиха и смутные слухи про какие-то ужасы, потому что они подогревают интерес. Но реальные инциденты им категорически не нужны. Поэтому они постараются обвесить то, что в продакшене, как можно большим количеством запретов, и постараются максимально уменьшить количество инцидентов. А те, что все-таки допустили - постараются замять. Именно поэтому бесполезно писать им в техподдержку с такими странными заявками.

MonkAlex