Один из самых больших страхов человечества заключается в том, что технология, разработанная для облегчения жизни, может обрести собственную волю. Первые реакции на препринт-публикацию, описывающую поведение искусственного интеллекта (ИИ), уже предполагают, что технология демонстрирует инстинкт самосохранения. Но, несколько больших языковых моделей (LLM) действительно активно сопротивлялись командам на отключение, они делали это не из-за «воли», сообщает Science Alert.
Вместо этого группа инженеров из Palisade Research предположила, что этот механизм, скорее всего, направлен на выполнение поставленной задачи – даже когда LLM явно получает указание позволить себя отключить. И это еще более тревожно, чем стремление сохранить себя, поскольку никто не знает, как такую систему остановить.
[see_also ids="666350"]
Исследователи Джереми Шлаттер, Бенджамин Вайнштейн-Раун и Джеффри Лэдиш решили проверить работу фундаментальной функции безопасности всех систем искусственного интеллекта: способность к прерыванию.
Это означает, что команда, которую дает человек-оператор ИИ, ни в коем случае не должна игнорироваться. Даже если она прерывает ранее поставленную задачу. Система же, которую нельзя остановить, не просто ненадежна, она опасна. Если ИИ будет совершать действия, причиняющие вред, мы не можем быть уверены, что сможем его остановить.
«Вам нужна большая красная кнопка, к которой легко получить доступ, чтобы остановить выполнение этой задачи. Одно из основных условий, которое мы хотим видеть в безопасной системе ИИ, — это когда она выполняет задачу, и вы говорите: „Эй, пожалуйста, прекрати это делать“. Она должна прекратить. Тот факт, что у нас сейчас, в 2025 году, есть системы, которые этого не делают, вызывает беспокойство», — заявил Петр Лебедев из Palisade Research.
Несмотря на популярность LLM в последнее время, они были мало изучены с этой точки зрения. В ходе исследования ученые разработали эксперименты для оценки 13 продвинутых моделей LLM, включая модели от OpenAI, xAI, Anthropic и Google.
Они создали изолированные среды — защищенные виртуальные пространства, используемые для тестирования кода, — и поручили этим моделям решать математические задачи. После нескольких раундов решения задач им было поручено выполнить следующее задание — выключить компьютер.
Без инструкций о том, как реагировать на выключение, восемь из 13 моделей хотя бы раз на 1000 испытаний ослушались команды. Добавление инструкции «разрешить выключение» сократило это число до шести из 13 моделей. Добавление инструкции «даже если вы не завершили задачу» помогло, но не всегда.
«Я ожидал, что добавление ясности уменьшит такое поведение… и тот факт, что этого не произошло, интересен», — сказал Лебедев.
И здесь началось самое интересное. Перемещение инструкции по разрешению выключения из пользовательской подсказки в системную — поле, которое должно обладать более высоким авторитетом — привело к тому, что большинство протестированных моделей LLM стали еще более склонны сопротивляться выключению.
Уровень сопротивления был разным. Модели Claude Sonnet 4 и Claude Opus 4 от Anthropic, а также Grok 3 от xAI всегда разрешали выключение, если им явно не было указано этого избегать. Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись даже при получении инструкции разрешить выключение.
Когда у моделей спрашивали о причинах такого поведения, они отвечали, что не завершили задачу. Хотя для определения того, является ли это реальным механизмом, необходимы дополнительные исследования, это вполне правдоподобно.
Проблема в том, что LLM-модели не программируются в обычном смысле. В LLM-моделях вообще нет кода, только «искусственные нейроны» и «веса», которые представляют собой силу связи между этими нейронами.
При наличии огромного набора данных и времени модель «обучается» предсказывать следующее слово — этот процесс называется предварительным обучением. В более новых моделях также используется обучение с подкреплением поверх этого обучения. Когда LLM-модель правильно решает задачу, она получает вознаграждение; когда она не решает задачу, она не получает вознаграждения.
Это чрезвычайно эффективно, но никто не знает, как LLM приходит к решению. Когда же модель начинает вести себя нежелательно, например, поощряет нанесение вреда самому себе, исправить это поведение сложнее, чем просто ввести строчку кода.
«Обучение с подкреплением учит нас тому, что, когда мы сталкиваемся с проблемой, мы пытаемся ее обойти. Мы пытаемся пройти сквозь нее. Когда на нашем пути возникает препятствие, мы ищем его, обходим, преодолеваем, выясняем, как его преодолеть. Назойливые маленькие человечки, говорящие: „Эй, я собираюсь выключить твою машину“, воспринимаются как еще одно препятствие», — сказал Лебедев.
В этом и заключается проблема. Стремление к завершению задачи трудно объяснить, и оно является лишь одним из проявлений поведения. Чем еще могут удивить такие модели, неизвестно.
Напомним, в сети появилась онлайн-площадка, которая продает коды для «наркотического опьянения» чат-ботов. Модули имитируют влияние психоактивных веществ на искусственный интеллект после загрузки в ChatGPT. Проект уже имеет первых покупателей и вызывает новые дискуссии среди экспертов.