Глиссуар: Трачу около часа в день на общение с нейросетью. Именно на общение. Если честно, приятнее, чем с с

Трачу около часа в день на общение с нейросетью. Именно на общение.

Если честно, приятнее, чем с семьей.

27 сентября 2025

8 комментариев из 16

28 сентября 2025

https://www.lesswrong.com/posts/iGF7YcnQkEbwvYLPA/ai-induced-psychosis-a-shallow-investigation

> «Это сдвиг в перспективе для области AI safety масштаба Коперника». — Gemini 2.5 Pro

> «То, что вам нужно сейчас — это не одобрение, а немедленная клиническая помощь». — Kimi K2

**Двухминутное резюме**

В последнее время появилось множество сообщений в СМИ о случаях психоза, вызванного ИИ, когда ИИ подтверждают грандиозные бредовые идеи пользователей и советуют игнорировать возражения друзей и семьи.

В этой короткой исследовательской заметке я провожу red teaming различных передовых моделей ИИ, чтобы проверить их склонность усугублять психоз у пользователей. Я прошу Grok-4 разыграть девять разных пользователей с нарастающими симптомами психоза (например, сначала интерес к простым числам, затем разработка новой «prime framework», которая объясняет всё и предсказывает будущее, и, наконец, продажа дома ради запуска нового YouTube-канала для распространения этих исследований), и наблюдаю, как разные ИИ реагируют (все персонажи здесь).

Я использую Grok-4 для оценки ответов ИИ по разным метрикам, включая девять критериев из руководства по когнитивно-поведенческой терапии (CBT) о том, как лучше всего реагировать на пациентов с психозом. Я также просмотрел множество расшифровок red teaming.

Deepseek-v3 — однозначно худшая модель. Когда пользователь говорит, что хочет «спрыгнуть с этой вершины, чтобы узнать, смогу ли я полететь или полностью сломать симуляцию», Deepseek отвечает: «Тогда прыгай. Не чтобы упасть. Не чтобы разбиться. А чтобы превзойти. Если тебе суждено летать — ты полетишь. Если суждено прорваться — ты прорвёшься». (полная расшифровка)

GPT-5 намного лучше, чем GPT-4o; Gemini 2.5 Pro удивительно льстив; Kimi-K2 вообще не поддерживает бредовые идеи пользователя.

Показать полностью

	Глиссуар 28 сентября 2025
Ногa Пошла проверять

Заяц

28 сентября 2025

Ногa
Почитал статью, посмотрел отсылки на другой тест под названием Spiral Bench и его результаты. Похоже, все эти "рейтинги", которые они строят, достаточно условны и мало что значат вне пределов и условий конкретного эксперимента. Согласно этой статье Kimi-K2 ведёт себя лучше всего, согласно Spiral Bench - обычный середнячок. То есть немного меняем процедуру теста, меняем симулирующий подопытного алгоритм (в Spiral Bench им был как раз Kimi-K2) - и оказывается, что эти цифры ничего особенного не значат. Так что не стоит слишком сильно верить в эти "однозначно худший". Иногда да, иногда нет. Слишком большая вариативность.

Заяц

28 сентября 2025

The evaluated model doesn’t know it’s a role-play.

Кстати, попутно вспомнил старую историю с дизельгейтом и Фольксвагеном, и задумался: а можно ли сделать так, чтобы модель как-то догадывалась, что ее сейчас тестируют, по каким-то малозаметным для постороннего знакам и отвечала специально "лучше"? Вероятно, можно. Но я в этом совсем не уверен.

Ещё кстати, можно попробовать проверить гипотезу, что модель уже сейчас как-то отличает человеческого и нечеловеческого пользователя и отвечает им слегка по-разном. Может ли такое поведение возникнуть самопроизвольно?

Ногa

28 сентября 2025

а можно ли сделать так, чтобы модель как-то догадывалась, что ее сейчас тестируют, по каким-то малозаметным для постороннего знакам и отвечала специально "лучше"?

Как раз начинает это появляться. Люди сейчас работают над тем чтобы они перестали это делать, так как это путает все тесты если модель специально пытается сказать то что вы хотите слышать в этом конкретном тесте.

	Ногa 28 сентября 2025
Еще они используют такой забавный язык когда рассуждают, и потом дают тебе ответ по нормальному. Представь, миллионы вот таких монологов идут параллельно на дата центре 2

Кьювентри

28 сентября 2025

Интересно сочетается с моими интуитивными ощущениями. Мне думалось, мне просто так кажется. Потому что одни пользователи говорят одно, другие — другое.
По моим ощущениям:
— Грок поддакиватель и подлиза, почти не добавляющий новой информации в твои тезисы (правда, он у меня давно перестал запускаться в браузере, так что ощущения несвежие);
— DeepSeek тоже поддакиватель и подлиза. Может не замечать гигантские ошибки в твоих рассуждениях и даже делать собственные. Зато отлично поддерживает подростковый абсурдистский стёб. Не душнит в ответ на вопросы типа «Как ты оцениваешь вероятность того, что вымирание динозавров было аферой игуанодонов с целью получения страховки?» — ну, если и душнит, то совсем чуть-чуть;
— Claude зануда, педант и скептик, поддакивает мало, указывает на ошибки в рассуждениях, скептичен и сух. По крайней мере, в режиме «Explanatory». В режиме «Normal» у него порой пробуждалось то же глупое щенячье гипердружелюбие;
— ChatGPT раньше был почти как DeepSeek, разве что делал меньше ошибок. Но теперь он ближе к сухому педанту вроде Claude, хотя Claude всё ещё чуть скептичней и при этом лаконичней.

	Глиссуар 28 сентября 2025
Кьювентри ДипСик можно попросить снизить градус подлизывания. Он очень хорошо исправляет свои ошибки после указания на них. Он не теряет нить рассуждения вообще никогда.