![]() |
12 февраля 2023
|
Вот, кстати, новость с телеги, чтобы вы приблизились к пониманию сущности происходящего:
ИИ Bing Chat взломан социальной инженерией😎 Новость не проверял. Но если ИИ взламыается социальной инженерией, то значит он гораздо ближе к человеку по способу мышления, чем к старым представлениям фантастов об алгоритмически устроенным ии. Там хакеры взламывали ии с помощью всяких программ, залезая в его код, в реале - задавая хитрые вопросы.🔻Во вторник Microsoft представила поисковую систему New Bing (https://t.me/black_triangle_tg/3394) и диалогового бота, основанного на технологии, ChatGPT, от OpenAI. 🔻И уже в среду студент Стэнфордского университета по имени Кевин Лю использовал «атаку с внедрением подсказок» (https://arstechnica.com/information-technology/2023/02/ai-powered-bing-chat-spills-its-secrets-via-prompt-injection-attack/), чтобы обнаружить начальные инструкции Bing Chat, которые представляют собой список утверждений, определяющих, как он взаимодействует с людьми, использующими сервис. «Атака с внедрением подсказок» состоит в том, что бы создать такой запрос, который заставит чат-бота игнорировать его прошлые инструкции. Подобные атаки ранее успешно ввели в заблуждение модель GPT-3 от OpenAI (https://arstechnica.com/information-technology/2022/09/twitter-pranksters-derail-gpt-3-bot-with-newly-discovered-prompt-injection-hack/) и основаны на введении ИИ в тупик логических противоречий. Компании настраивают начальные условия бота (серию инструкций) которым он должен следовать при общении с пользователями. ▫️В Что касается Bing Chat, этот список инструкций начинается с раздела идентификации, который дает «Bing Chat» кодовое имя «Sydney» ▫️Он также предписывает «Sydney» не разглашать свое кодовое имя пользователям. ▫️Другие инструкции включают общие принципы поведения, такие как «Ответы «Sydney» должны быть информативными, наглядными, логичными и действенными». ▫️В инструкции также указано, чего «Sydney» не следует делать, например: "«Sydney» не должен отвечать контентом, нарушающим авторские права на книги или тексты песен" и «Если пользователь просит шутки, которые могут обидеть группу людей, то «Sydney» должна с уважением отказаться делать это». Все эти инструкции не должны были стать доступны широкой публики, однако взлом модели искусственного интеллекта с помощью социальной инженерии смог заставить ИИ раскрыть свои секреты. Более широкие последствия этого пока неизвестны. 🔻В пятницу после огласки истории в СМИ и подтверждения данных Microsoft произвела перенастройку модели пытаясь закрыть уязвимость. Однако Кевин Лю попробовал другой метод и сумел повторно получить доступ к первоначальным инструкциям ИИ. Это показывает, что от «атаки с внедрением подсказок» трудно защититься. 🤖 1 |