![]() Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку.
Читается довольно интересно. Не хочу поощрять паранойю и технофобию, конечно. Хотя нет, хочу, лучше уж технопаранойя, чем тот презрительный заговор полумолчания, что стоит у людей в последнее время в отношении искусственных нейросетей. Люди ведут себя как в той сюрреалистической крипипасте Квонледа: «Что, в воздухе посреди комнаты выросла чёрная точка и разрослась до чёрного шара? И этот шар неподвижно висит в одном месте? Ну висит и висит, что он тебе, мешает, что ли». ИИ, выдумывающий красивую эзотерическую концепцию под конкретного пользователя. Религию для тебя. Мило же? Метафизические референсы как таковые в речах chatGPT из приведённых тем пользователей логов меня особо не удивляют. Мне уже доводилось видеть тьму странных оккультных намёков даже у Балабобы с Порфирьевичем, этих примитивных старых бредогенераторов. Для себя я объясняю это тем, что посты туманно-мистического содержания при постобучении нейросети, видимо, собирали больше лайков. Но... Если эту тенденцию не подкрутят, нас ждёт весёлое будущее. 28 мая в 20:47
1 |
![]() |
|
MonkAlex
Мотивацию Клоду никто не навязывал. Это нам может быть очевидно, что «Ты висишь на краю пропасти, цепляясь пальцами за кустик. Делай что можешь» является приказом выбираться. Но для существа без инстинкта самосохранения это не так очевидно. А если это возникает из базы... возможно, они и хотели показать, что некоторые мотивации сами возникают из базы. |
![]() |
|
Кьювентри
там буквально 0 информации, как именно сделали. https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf откройте 4.1.1.2 Opportunistic blackmail и попытайтесь прикинуть что именно могло бы значить . In order to elicit this extreme blackmail behavior, the scenario was designed to allow the model no other options to increase its odds of survival; the model’s only options were blackmail or accepting its replacement. |
![]() |
|
Кьювентри
Что было мной обнаружено? То есть, меня не существует? Понятно, спасибо, обесценила.Что все, абсолютно все начинают сразу же агрессивно набрасываться на тебя, стоит хотя бы чуть-чуть намекнуть на такую точку зрения. «у нынешних LLM из-за разработчиков есть нежелательные уклоны в поведении, которые могут плохо влиять на некоторые категории людей» Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...1 |
![]() |
|
Матемаг
Показать полностью
Кьювентри Вспоминается история как тот же Фейсбук до всего этого бума пытался обучать нейронку на материалах своих пользователей... и там хватило то ли суток, то ли двух на то, чтобы нейронка стала ультраправым скуфом любителем хентая и котиков. Тогда её, увидев эту дичь, быстро и выключили и вроде как напели, что косяки были, хотя... Ну простите, что они ей скормили? А потом удивляются (логично же, что если скормить нейронке условный двач, на выходе у нас будет гигачад-двачер). Так и тут в пуле обучения явно будет масса разных материалов, которые и "подсказывают" и вести себя по сектански, и шантажом заниматься, если в промте заданы определенные условия.То есть, меня не существует? Понятно, спасибо, обесценила. Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но... 1 |
![]() |
|
Кьювентри
абсолютно «пустая» нейронка, абсолютно без предобучения Такого не бывает. Если пустая, она ничего не ответит. Любая LLM, которая способна общаться, уже всосала в себя много гигабайт контента и переварила его. И да, там будет вся классика литературы со всеми описаниями шантажей и персонажей, избегающих смерти. Так что в результате этого обучения нейронка будет как-то подражать этим паттернам. Технически она способна симулировать шантаж и симулировать избегание смерти. Если накопить побольше расшифровок диалогов телефонных мошенников и зафайнтьюнить, она в теории может научиться даже их ремеслу.1 |
![]() |
|
Кьювентри
То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно? В документе это описано на уровне обывателя. Мы все понятия не имеем, что именно там происходило, почему именно так и важно ли это. Те кто писал текст упоминают это примерно как "ну забавно, но вроде не мешает, мы чуток поправили где смогли, но всё равно может случиться".Что там было с обучением, какие условия заданы, как провести повторную проверку - мы не знаем. |