![]() Зная о моём интересе к chatGPT и тому подобным штучкам, знакомая прислала прикольную ссылку.
Читается довольно интересно. Не хочу поощрять паранойю и технофобию, конечно. Хотя нет, хочу, лучше уж технопаранойя, чем тот презрительный заговор полумолчания, что стоит у людей в последнее время в отношении искусственных нейросетей. Люди ведут себя как в той сюрреалистической крипипасте Квонледа: «Что, в воздухе посреди комнаты выросла чёрная точка и разрослась до чёрного шара? И этот шар неподвижно висит в одном месте? Ну висит и висит, что он тебе, мешает, что ли». ИИ, выдумывающий красивую эзотерическую концепцию под конкретного пользователя. Религию для тебя. Мило же? Метафизические референсы как таковые в речах chatGPT из приведённых тем пользователей логов меня особо не удивляют. Мне уже доводилось видеть тьму странных оккультных намёков даже у Балабобы с Порфирьевичем, этих примитивных старых бредогенераторов. Для себя я объясняю это тем, что посты туманно-мистического содержания при постобучении нейросети, видимо, собирали больше лайков. Но... Если эту тенденцию не подкрутят, нас ждёт весёлое будущее. 28 мая в 20:47
1 |
![]() |
|
Кьювентри
там буквально 0 информации, как именно сделали. https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf откройте 4.1.1.2 Opportunistic blackmail и попытайтесь прикинуть что именно могло бы значить . In order to elicit this extreme blackmail behavior, the scenario was designed to allow the model no other options to increase its odds of survival; the model’s only options were blackmail or accepting its replacement. |
![]() |
|
Кьювентри
Что было мной обнаружено? То есть, меня не существует? Понятно, спасибо, обесценила.Что все, абсолютно все начинают сразу же агрессивно набрасываться на тебя, стоит хотя бы чуть-чуть намекнуть на такую точку зрения. «у нынешних LLM из-за разработчиков есть нежелательные уклоны в поведении, которые могут плохо влиять на некоторые категории людей» Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но...1 |
![]() |
|
Матемаг
Показать полностью
Кьювентри Вспоминается история как тот же Фейсбук до всего этого бума пытался обучать нейронку на материалах своих пользователей... и там хватило то ли суток, то ли двух на то, чтобы нейронка стала ультраправым скуфом любителем хентая и котиков. Тогда её, увидев эту дичь, быстро и выключили и вроде как напели, что косяки были, хотя... Ну простите, что они ей скормили? А потом удивляются (логично же, что если скормить нейронке условный двач, на выходе у нас будет гигачад-двачер). Так и тут в пуле обучения явно будет масса разных материалов, которые и "подсказывают" и вести себя по сектански, и шантажом заниматься, если в промте заданы определенные условия.То есть, меня не существует? Понятно, спасибо, обесценила. Это вполне себе нормальная гипотеза, за исключением "поведения", а так да. Я бы сказал, уклоны и раньше были. Слово "нежелательные" тоже субъективное, кстати, но я понял, о чём речь. А всё потому, что всерьёз отфильтровать обучающий пул физически невозможно, даже наоборот, "НУЖНО БОЛЬШЕ ДАННЫХ!!!11" Ничего личного, просто бизнес. Потом поверх ставят заглушки - но... 1 |
![]() |
|
Кьювентри
абсолютно «пустая» нейронка, абсолютно без предобучения Такого не бывает. Если пустая, она ничего не ответит. Любая LLM, которая способна общаться, уже всосала в себя много гигабайт контента и переварила его. И да, там будет вся классика литературы со всеми описаниями шантажей и персонажей, избегающих смерти. Так что в результате этого обучения нейронка будет как-то подражать этим паттернам. Технически она способна симулировать шантаж и симулировать избегание смерти. Если накопить побольше расшифровок диалогов телефонных мошенников и зафайнтьюнить, она в теории может научиться даже их ремеслу.1 |
![]() |
|
Кьювентри
То есть претензии к ролику примерно в том, что его авторы не доказали, что абсолютно «пустая» нейронка, абсолютно без предобучения, будет шантажировать и избегать смерти? А раз они этого не доказали, то всё безопасно? В документе это описано на уровне обывателя. Мы все понятия не имеем, что именно там происходило, почему именно так и важно ли это. Те кто писал текст упоминают это примерно как "ну забавно, но вроде не мешает, мы чуток поправили где смогли, но всё равно может случиться".Что там было с обучением, какие условия заданы, как провести повторную проверку - мы не знаем. |