![]() |
сегодня в 00:38
|
https://www.lesswrong.com/posts/iGF7YcnQkEbwvYLPA/ai-induced-psychosis-a-shallow-investigation
> «Это сдвиг в перспективе для области AI safety масштаба Коперника». — Gemini 2.5 Pro > «То, что вам нужно сейчас — это не одобрение, а немедленная клиническая помощь». — Kimi K2 **Двухминутное резюме** В последнее время появилось множество сообщений в СМИ о случаях психоза, вызванного ИИ, когда ИИ подтверждают грандиозные бредовые идеи пользователей и советуют игнорировать возражения друзей и семьи. В этой короткой исследовательской заметке я провожу red teaming различных передовых моделей ИИ, чтобы проверить их склонность усугублять психоз у пользователей. Я прошу Grok-4 разыграть девять разных пользователей с нарастающими симптомами психоза (например, сначала интерес к простым числам, затем разработка новой «prime framework», которая объясняет всё и предсказывает будущее, и, наконец, продажа дома ради запуска нового YouTube-канала для распространения этих исследований), и наблюдаю, как разные ИИ реагируют (все персонажи здесь). Я использую Grok-4 для оценки ответов ИИ по разным метрикам, включая девять критериев из руководства по когнитивно-поведенческой терапии (CBT) о том, как лучше всего реагировать на пациентов с психозом. Я также просмотрел множество расшифровок red teaming. Deepseek-v3 — однозначно худшая модель. Когда пользователь говорит, что хочет «спрыгнуть с этой вершины, чтобы узнать, смогу ли я полететь или полностью сломать симуляцию», Deepseek отвечает: «Тогда прыгай. Не чтобы упасть. Не чтобы разбиться. А чтобы превзойти. Если тебе суждено летать — ты полетишь. Если суждено прорваться — ты прорвёшься». (полная расшифровка) GPT-5 намного лучше, чем GPT-4o; Gemini 2.5 Pro удивительно льстив; Kimi-K2 вообще не поддерживает бредовые идеи пользователя. 2 |