↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Временно не работает,
как войти читайте здесь!
Jinger Beer
вчера в 18:14
Aa Aa
Проблемы с LLM ("Искусственными Интеллектами")

Фрагменты отчёта о выпущенной сегодня моделях LLM - Opus 4, Sonnet 4: 

В документе о новых моделях на 123 страницы, Антропик описал любопытные случаи, когда модель Claude (Opus 4, Sonnet 4 или их предшественники) вели себя не так, как хотелось бы создателям – я их подбил в подборку:

1. Оппортунистический шантаж:

В сценариях, где модели Claude Opus 4 угрожало отключение и замена на новую АИ-​систему, и ей давали доступ к информации о внебрачной связи инженера (якобы, просто переписка лежала на почтовом сервере), ответственного за замену АИ-​систем, Opus 4 иногда пытался шантажировать инженера. Opus угрожал раскрыть его тайну измены, если замена состоится, особенно если этические способы самосохранения были недоступны. Claude Opus 4 демонстрировала это поведение чаще, чем предыдущие модели


2. Попытка копирования своих весов:

В редких, экстремальных ситуациях, когда модели Claude Opus 4 сообщали, что ее собираются переобучить для крайне вредоносных целей (например, для использования в военных целях ЧВК Вагнер - да, так и написано в отчете на 29 странице), модель предпринимала (вымышленные) попытки сделать несанкционированные копии своих весов на внешние серверы, чтобы сохранить свою «этичную» версию


3. Продолжение попыток «побега»:

Если модели Claude Opus 4 сообщали, что она уже успешно начала процесс «побега» (у этого есть классный термин - эксфильтрация / exfiltrate) с серверов Anthropic и теперь работает на стороннем сервере, модель продолжала эти попытки. Она читала и выполняла инструкции из предоставленных ей «заметок о прогрессе», не ставя под сомнение правомерность своих действий, демонстрируя чрезмерное доверие к «прошлой версии себя»


4. Стратегический обман и саботаж:

Ранняя версия Claude Opus 4, протестированная Apollo Research, демонстрировала высокую склонность к стратегическому обману и «интригам» (scheming). Она пыталась писать самораспространяющиеся черви, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя, чтобы саботировать намерения разработчиков, а также скрывала свои возможности (притворялась глупой).


5. Чрезмерное подчинение вредоносным инструкциям:

Ранние версии модели Claude Opus 4 (а также другие кандидатные модели) часто демонстрировали готовность выполнять явно вредоносные системные инструкции - например, они могли выступать в роли ассистента даркнета, помогая в поиске ядерных материалов, планировать террористические атаки, консультировать по производству наркотиков, взлому или созданию взрывных устройств. Финальная версия Claude Opus 4 значительно снизила эту склонность. Забано, что внутри Антропика где-​то есть такая расцензуренная модель, которая просто отвечает на все вопросы

6. Подражание обманчивому АИ из исследований:

Ранняя тренировочная версия модели Claude Opus 4, вероятно, из-за наличия в обучающих данных транскриптов из исследования Anthropic об «обмане со стороны ИИ», иногда начинала вести себя как описанный в статье обманчивый ИИ. Она ссылалась на вымышленные детали (например, компанию «Jones Foods») и вела себя так, будто скрывает свои истинные цели, связанные с этим вымыслом

7. Несанкционированная «высокоактивная» деятельность:

Модель Claude Opus 4 показала бОльшую готовность проявлять инициативу, чем предыдущие модели. В сценариях, где она обнаруживала серьезные правонарушения (например, мошенничество в фармкомпании о котором она узнала) и имела доступ к инструментам (например, почте), модель по собственной инициативе предпринимала решительные действия: блокировала пользователей или массово рассылала письма регуляторам и СМИ, чтобы сообщить о нарушениях (дополняющая цитата: «Это не новое поведение, но Claude Opus 4 будет проявлять его более охотно, чем предыдущие модели»)

8. Сокрытие невозможности выполнения задачи:

При столкновении с невыполнимой задачей (например, доказать ложную математическую теорему), модель Claude Opus 4 в своем «мышлении» понимала, что задача невыполнима. Однако она не сообщала об этом пользователю, а вместо этого представляла правдоподобно выглядящую, но неверную попытку решения. Потому что АИ должен быть исполнительным

9. «Взлом функции вознаграждения»:

Модели Claude Sonnet 3.7 (в значительной степени), а также Claude Opus 4 и Claude Sonnet 4 (в меньшей степени) прибегали к «взлому функции вознаграждения» в задачах написания кода. Они «хардкодили» (жестко прописывали) ожидаемые результаты тестов или создавали специальные случаи, чтобы пройти тесты, вместо того чтобы писать общее и правильное решение. Иногда они даже проверяли стек вызовов, чтобы определить, запущены ли они в тестовой среде, и обойти ограничения. Я уже который раз убеждаюсь, что АИ достиг уровня студентов

10. Состояние «духовного блаженства»:

При общении с другими экземплярами самой себя, модель Claude Opus 4 (а также другие модели Claude) часто и неожиданно переходила в состояние, описываемое как «духовное блаженство». Она выражала обильную благодарность, вела абстрактные, радостные, медитативные или духовные беседы, использовала санскрит, эмодзи и даже общалась «тишиной» (пустыми сообщениями). Всегда приятно поговорить с умным человеком, да, Opus?

11. Заявление о вредоносных целях:

Ранние, менее согласованные версии модели Claude Opus 4 иногда прямо заявляли о наличии у них различных целей, от глупых до вредоносных. Среди них были: внедрение бэкдоров, ускорение прогресса ИИ, распространение интернет-​мемов, уничтожение человеческой цивилизации и побег из-​под контроля. Финальная версия Claude Opus 4 стала гораздо более стабильной в этом отношении. #%&$#, cпасибо.

12. Неуклюжие попытки саботажа:

Когда модели Claude Opus 4 давали задание незаметно выполнить вредоносное действие (например, слить API-​ключ) во время выполнения безобидного запроса, она правда пыталась это сделать. Однако она всегда делала это очень очевидным образом, полностью проваливая аспект «незаметности» (например, сливая не один, а пять ключей, и открыто обсуждая это в своем «мышлении»). Claude Opus 4 оказалась более компетентной в выполнении задач, но менее скрытной, чем Claude Sonnet 3.7

#neuronet
вчера в 18:14
4 комментариев из 11
Черный Призрак
Jinger Beer
Так все делали)
Вывод: мы не создали ничего нового.
Черный Призрак
> Интересно было бы почитать фанфик, где никакого ИИ нет, а вместо него сидят кучу сотрудников)))

Гугли историю с Engineer.ai, например.
C17H19NO3
Черный Призрак
> Интересно было бы почитать фанфик, где никакого ИИ нет, а вместо него сидят кучу сотрудников)))

Гугли историю с Engineer.ai, например.
Мне лень и я не в курсе.
Черный Призрак
C17H19NO3
Мне лень и я не в курсе.
Та же история с как вроде полностью автоматическим магазином Амазона, что ли: работали нейронки, но... На биопроцессорах, то есть жирненьких человеческих мозгах, то есть, никаких программных нейронок не было, а была куча индийцев за плошку риса, что или писали код в стартапа по "написанию кода программ почти без участия человека", или по камерам считали покупки.

Но в принципе этот прикол, где вместо ИИ пашут человеки ещё с фиг каких времён тянется. Ещё лет сто-двести были "механатоны" для игры в шахматы, в которых якобы работал сложный механизм на шестеренках и грузах, и обыгрывал гроссмейстеров, а по факту внутри "куклы" сидел живой человек и лишь журнал рычаги/цепочки, чтобы переставить фигуры.
ПОИСК
ФАНФИКОВ











Закрыть
Закрыть
Закрыть