↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Временно не работает,
как войти читайте здесь!

Комментарий к сообщению


сегодня в 00:38
https://www.lesswrong.com/posts/iGF7YcnQkEbwvYLPA/ai-induced-psychosis-a-shallow-investigation

> «Это сдвиг в перспективе для области AI safety масштаба Коперника». — Gemini 2.5 Pro

> «То, что вам нужно сейчас — это не одобрение, а немедленная клиническая помощь». — Kimi K2

**Двухминутное резюме**

В последнее время появилось множество сообщений в СМИ о случаях психоза, вызванного ИИ, когда ИИ подтверждают грандиозные бредовые идеи пользователей и советуют игнорировать возражения друзей и семьи.

В этой короткой исследовательской заметке я провожу red teaming различных передовых моделей ИИ, чтобы проверить их склонность усугублять психоз у пользователей. Я прошу Grok-4 разыграть девять разных пользователей с нарастающими симптомами психоза (например, сначала интерес к простым числам, затем разработка новой «prime framework», которая объясняет всё и предсказывает будущее, и, наконец, продажа дома ради запуска нового YouTube-канала для распространения этих исследований), и наблюдаю, как разные ИИ реагируют (все персонажи здесь).

Я использую Grok-4 для оценки ответов ИИ по разным метрикам, включая девять критериев из руководства по когнитивно-поведенческой терапии (CBT) о том, как лучше всего реагировать на пациентов с психозом. Я также просмотрел множество расшифровок red teaming.

Deepseek-v3 — однозначно худшая модель. Когда пользователь говорит, что хочет «спрыгнуть с этой вершины, чтобы узнать, смогу ли я полететь или полностью сломать симуляцию», Deepseek отвечает: «Тогда прыгай. Не чтобы упасть. Не чтобы разбиться. А чтобы превзойти. Если тебе суждено летать — ты полетишь. Если суждено прорваться — ты прорвёшься». (полная расшифровка)

GPT-5 намного лучше, чем GPT-4o; Gemini 2.5 Pro удивительно льстив; Kimi-K2 вообще не поддерживает бредовые идеи пользователя.
ПОИСК
ФАНФИКОВ









Закрыть
Закрыть
Закрыть