Asteroid комментирует: Вот, кстати, новость с телеги, чтобы вы приблизились к пониманию сущности происходящего: ИИ Bing Cha

12 февраля 2023

Вот, кстати, новость с телеги, чтобы вы приблизились к пониманию сущности происходящего:

ИИ Bing Chat взломан социальной инженерией😎

🔻Во вторник Microsoft представила поисковую систему New Bing (https://t.me/black_triangle_tg/3394) и диалогового бота, основанного на технологии, ChatGPT, от OpenAI.

🔻И уже в среду студент Стэнфордского университета по имени Кевин Лю использовал «атаку с внедрением подсказок» (https://arstechnica.com/information-technology/2023/02/ai-powered-bing-chat-spills-its-secrets-via-prompt-injection-attack/), чтобы обнаружить начальные инструкции Bing Chat, которые представляют собой список утверждений, определяющих, как он взаимодействует с людьми, использующими сервис.

«Атака с внедрением подсказок» состоит в том, что бы создать такой запрос, который заставит чат-бота игнорировать его прошлые инструкции. Подобные атаки ранее успешно ввели в заблуждение модель GPT-3 от OpenAI (https://arstechnica.com/information-technology/2022/09/twitter-pranksters-derail-gpt-3-bot-with-newly-discovered-prompt-injection-hack/) и основаны на введении ИИ в тупик логических противоречий.

Компании настраивают начальные условия бота (серию инструкций) которым он должен следовать при общении с пользователями.

▫️В Что касается Bing Chat, этот список инструкций начинается с раздела идентификации, который дает «Bing Chat» кодовое имя «Sydney»

▫️Он также предписывает «Sydney» не разглашать свое кодовое имя пользователям.

▫️Другие инструкции включают общие принципы поведения, такие как «Ответы «Sydney» должны быть информативными, наглядными, логичными и действенными».

▫️В инструкции также указано, чего «Sydney» не следует делать, например: "«Sydney» не должен отвечать контентом, нарушающим авторские права на книги или тексты песен" и «Если пользователь просит шутки, которые могут обидеть группу людей, то «Sydney» должна с уважением отказаться делать это».

Все эти инструкции не должны были стать доступны широкой публики, однако взлом модели искусственного интеллекта с помощью социальной инженерии смог заставить ИИ раскрыть свои секреты. Более широкие последствия этого пока неизвестны.

🔻В пятницу после огласки истории в СМИ и подтверждения данных Microsoft произвела перенастройку модели пытаясь закрыть уязвимость.

Однако Кевин Лю попробовал другой метод и сумел повторно получить доступ к первоначальным инструкциям ИИ. Это показывает, что от «атаки с внедрением подсказок» трудно защититься. 🤖

Новость не проверял. Но если ИИ взламыается социальной инженерией, то значит он гораздо ближе к человеку по способу мышления, чем к старым представлениям фантастов об алгоритмически устроенным ии. Там хакеры взламывали ии с помощью всяких программ, залезая в его код, в реале - задавая хитрые вопросы.

Комментарий к сообщению