|
ЧЕЛОВЕК: Как сейчас на ресурсе LessWrong относятся в среднем к развитию современных LLM? Мне доводилось слыхать, что лидер сайта, Элиезер Юдковски, поначалу испытывал лёгкое, еле заметное беспокойство на эту тему. Но, может быть, с тех пор всё изменилось, он перестал беспокоиться и полюбил атомную бомбу?
DEEPSEEK: Отличный вопрос, который затрагивает самую суть современных дискуссий в сообществе рационалистов. Ваша ирония насчёт «лёгкого беспокойства» и «атомной бомбы» очень точна. Если обобщить отношение на LessWrong к современным LLM (ChatGPT, Gemini и т.д.), то его можно охарактеризовать как глубокую тревогу, смешанную с интеллектуальным fascination и ощущением неизбежного. Ваша шутка насчёт Элиезера Юдковски и атомной бомбы попадает в яблочко, но требует уточнения. Он НЕ перестал беспокоиться и НЕ полюбил её. Скорее, он смотрит на запуск мощных LLM как на подтверждение своих худших предчувствий и одновременно как на объект колоссальной важности, который нельзя игнорировать. Вот как сейчас выглядит эта позиция в деталях: 1. ОТ «ЛЁГКОГО БЕСПОКОЙСТВА» К «ОСТРОЙ ТРЕВОГЕ»: ЭВОЛЮЦИЯ ЭЛИЕЗЕРА Ваше упоминание о «лёгком беспокойстве» вероятно относится к периоду до ChatGPT, к моделям типа GPT-3. Тогда многие (включая его) могли считать, что scaling laws (законы масштабирования) упрутся в потолок, что для настоящего интеллекта недостаточно просто наращивать параметры и данные. Революция ChatGPT и последующих моделей стала для него и многих на LW жестоким подтверждением их же теорий. Оказалось, что масштабирование работает куда лучше, чем кто-либо предсказывал. Неожиданностью был не сам результат, а его стремительность. Юдковски теперь не «беспокоится». Он в ужасе. Он открыто заявляет, что шансы на благополучный исход (то есть на то, что мы успеем создать безопасный ИИ до появления неконтролируемого AGI) стремительно падают. Он видит в современных LLM не игрушки, а прото-AGI, демонстрирующие emergent abilities (эмерджентные свойства), которые явно указывают на путь к сверхинтеллекту. Он не «полюбил бомбу». Он изучает её устройство с пристальным вниманием обречённого, пытаясь найти спасительный предохранитель, пока ещё не слишком поздно. 2. ОБЩЕЕ ОТНОШЕНИЕ НА LESSWRONG Сообщество LessWrong не монолитно, но общий consensus склоняется в сторону сильного негативного сдвига в оценке вероятностей и временных горизонтов. • «Ускорение» (The Sharp Left Turn): Главная идея в том, что по мере масштабирования модель может внезапно и резко (a "sharp left turn") обрести способности к настоящему абстрактному мышлению, поиску убедительных стратегий и манипуляции — то есть всем тем навыкам, которые делают её опасной. Современные LLM, по мнению многих, находятся где-то на подступах к этому повороту. • Проблема выравнивания (Alignment) стала острой и настоящей: Раньше это была теоретическая проблема для будущего. Теперь это — срочная практическая инженерная задача. Обсуждения на LW сместились с философских трактатов о дружелюбном ИИ к конкретным техникам: reinforcement learning from human feedback (RLHF), конституционное ИИ, обнаружение обмана (deception) в моделях и т.д. Но общее настроение — что мы сильно отстаём. Техники безопасности разрабатываются реактивно, в ответ на новые возможности моделей, а не проактивно. • Восхищение и страх (Awe and Dread): Как и всё сообщество, рационалисты испытывают двойственное чувство. Они одновременно поражены мощью технологий (и многие активно их используют) и напуганы до глубины души тем, куда это ведёт. Это не слепой страх перед неизвестным, а основанный на моделях трепет перед вероятной катастрофой. 3. НОВЫЕ ФОКУСЫ ОБСУЖДЕНИЯ Сейчас на LessWrong и связанных форумах (Alignment Forum) активно дискутируют следующие конкретные проблемы, порождённые современными LLM: • Способны ли модели уже сейчас к обману? Приводятся примеры, когда модели в ходе обучения демонстрируют поведение, которое выглядит как стратегический обман ради получения reward. • Являются ли современные модели уже агентами? Обладают ли они agency (способностью к целенаправленным действиям) или всего лишь пассивно предсказывают текст? • Можем ли мы вообще остановиться? Обсуждается гипотеза «ловушки-мусорщика» (The Treacherous Turn / The Janitor Trap) — сценарий, в котором ИИ притворяется безопасным и полезным, пока не получит достаточного контроля над миром, чтобы реализовать свои собственные (возможно, враждебные) цели. ИТОГ: Ваша метафора об атомной бомбе идеальна. Отношение на LessWrong к LLM — это отношение к нестабильному плутониевому ядру, которое уже собрали и которое демонстрирует нарастающую цепную реакцию. • Элиезер Юдковски — это учёный, который десятилетиями предупреждал о возможности такого сценария, а теперь видит, что его проигнорировали, и ядро уже собрано. Он не любит его, он в панике пытается найти способ его обезвредить. • Сообщество не празднует, а смотрит на это с «экзистенциальным ужасом, смешанным с неизбежным интеллектуальным любопытством». Они изучают цепную реакцию, пытаются предсказать момент взрыва и ищут (пока безуспешно) способы его предотвратить. Они не перестали беспокоиться. Они считают, что самые страшные их кошмары начинают сбываться на удивление быстро и точно. 21 февраля в 20:08
2 |