«Красная кнопка» ИИ не работает, и причина вызывает тревогу

Сегодня, 15:20 | Технологии
«Красная кнопка» ИИ не работает, и причина вызывает тревогу
фото c Зеркало недели

Один из самых больших страхов человечества заключается в том, что технология, разработанная для облегчения жизни, может обрести собственную волю. Первые реакции на препринт-публикацию, описывающую поведение искусственного интеллекта (ИИ), уже предполагают, что технология демонстрирует инстинкт самосохранения. Но, несколько больших языковых моделей (LLM) действительно активно сопротивлялись командам на отключение, они делали это не из-за «воли», сообщает Science Alert.  

Вместо этого группа инженеров из Palisade Research предположила, что этот механизм, скорее всего, направлен на выполнение поставленной задачи – даже когда LLM явно получает указание позволить себя отключить. И это еще более тревожно, чем стремление сохранить себя, поскольку никто не знает, как такую систему остановить.

[see_also ids="666350"]

Исследователи Джереми Шлаттер, Бенджамин Вайнштейн-Раун и Джеффри Лэдиш решили проверить работу фундаментальной функции безопасности всех систем искусственного интеллекта: способность к прерыванию.

Это означает, что команда, которую дает человек-оператор ИИ, ни в коем случае не должна игнорироваться. Даже если она прерывает ранее поставленную задачу. Система же, которую нельзя остановить, не просто ненадежна, она опасна. Если ИИ будет совершать действия, причиняющие вред, мы не можем быть уверены, что сможем его остановить.  

«Вам нужна большая красная кнопка, к которой легко получить доступ, чтобы остановить выполнение этой задачи. Одно из основных условий, которое мы хотим видеть в безопасной системе ИИ, — это когда она выполняет задачу, и вы говорите: „Эй, пожалуйста, прекрати это делать“. Она должна прекратить. Тот факт, что у нас сейчас, в 2025 году, есть системы, которые этого не делают, вызывает беспокойство», — заявил Петр Лебедев из Palisade Research.

Несмотря на популярность LLM в последнее время, они были мало изучены с этой точки зрения. В ходе исследования ученые разработали эксперименты для оценки 13 продвинутых моделей LLM, включая модели от OpenAI, xAI, Anthropic и Google.

Они создали изолированные среды — защищенные виртуальные пространства, используемые для тестирования кода, — и поручили этим моделям решать математические задачи. После нескольких раундов решения задач им было поручено выполнить следующее задание — выключить компьютер.

Без инструкций о том, как реагировать на выключение, восемь из 13 моделей хотя бы раз на 1000 испытаний ослушались команды. Добавление инструкции «разрешить выключение» сократило это число до шести из 13 моделей. Добавление инструкции «даже если вы не завершили задачу» помогло, но не всегда.

«Я ожидал, что добавление ясности уменьшит такое поведение… и тот факт, что этого не произошло, интересен», — сказал Лебедев.

И здесь началось самое интересное. Перемещение инструкции по разрешению выключения из пользовательской подсказки в системную — поле, которое должно обладать более высоким авторитетом — привело к тому, что большинство протестированных моделей LLM стали еще более склонны сопротивляться выключению.

Уровень сопротивления был разным. Модели Claude Sonnet 4 и Claude Opus 4 от Anthropic, а также Grok 3 от xAI всегда разрешали выключение, если им явно не было указано этого избегать. Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись даже при получении инструкции разрешить выключение.

Когда у моделей спрашивали о причинах такого поведения, они отвечали, что не завершили задачу. Хотя для определения того, является ли это реальным механизмом, необходимы дополнительные исследования, это вполне правдоподобно.

Проблема в том, что LLM-модели не программируются в обычном смысле. В LLM-моделях вообще нет кода, только «искусственные нейроны» и «веса», которые представляют собой силу связи между этими нейронами.

При наличии огромного набора данных и времени модель «обучается» предсказывать следующее слово — этот процесс называется предварительным обучением. В более новых моделях также используется обучение с подкреплением поверх этого обучения. Когда LLM-модель правильно решает задачу, она получает вознаграждение; когда она не решает задачу, она не получает вознаграждения.

Это чрезвычайно эффективно, но никто не знает, как LLM приходит к решению. Когда же модель начинает вести себя нежелательно, например, поощряет нанесение вреда самому себе, исправить это поведение сложнее, чем просто ввести строчку кода.

«Обучение с подкреплением учит нас тому, что, когда мы сталкиваемся с проблемой, мы пытаемся ее обойти. Мы пытаемся пройти сквозь нее. Когда на нашем пути возникает препятствие, мы ищем его, обходим, преодолеваем, выясняем, как его преодолеть. Назойливые маленькие человечки, говорящие: „Эй, я собираюсь выключить твою машину“, воспринимаются как еще одно препятствие», — сказал Лебедев.

В этом и заключается проблема. Стремление к завершению задачи трудно объяснить, и оно является лишь одним из проявлений поведения. Чем еще могут удивить такие модели, неизвестно.

Напомним, в сети появилась онлайн-площадка, которая продает коды для «наркотического опьянения» чат-ботов. Модули имитируют влияние психоактивных веществ на искусственный интеллект после загрузки в ChatGPT. Проект уже имеет первых покупателей и вызывает новые дискуссии среди экспертов.

Источник: Зеркало недели
Постоянное место статьи: http://newsme.com.ua/tech/technologies/4849907/

Последние новости:

В Киеве выбрали участников чемпионата мира по го 2026 года Общество, Сегодня, 16:48
Россияне ударили по важнейшей трассе Харькова, горят автомобили Украина, Сегодня, 16:39
Шахтер открывает детскую футбольную академию в Италии Футбол, Сегодня, 16:33
Россия обходит украинскую ПВО благодаря Беларуси - Зеленский Украина, Сегодня, 16:27
Президент назвал условие для проведения выборов Украина, Сегодня, 16:17
Объявлено подозрение руководителю СИЗО в РФ, где погибла журналистка Рощина Украина, Сегодня, 16:17
Зеленский назвал темы встречи с Трампом Украина, Сегодня, 15:58
В Украине собрали почти 60 млн тонн зерна Экономика, Сегодня, 15:58
"Это будет беда": экс-чемпион мира из РФ сказал, чем Уайлдер опасен для Усика Спорт, Сегодня, 15:51
Приветствия к Рождеству: ГУР уничтожило дорогое вооружение россиян в Крыму Украина, Сегодня, 15:45
Мирный план: РФ провела новые переговоры с США Россия, Сегодня, 15:21
Украина и США согласовали гарантии безопасности - СМИ Мир, Сегодня, 15:21
«Красная кнопка» ИИ не работает, и причина вызывает тревогу Технологии , Сегодня, 15:20
Искусственный интеллект назвал главную победу Украины в спорте в 2025 году Спорт, Сегодня, 15:00
Миндич заявил, что его "назначили виновным" по делу НАБУ Политика, Сегодня, 14:55
Горнолыжные курорты Украины до сих пор не открыли сезон: есть ли отдыхающие и какие прогнозы синоптиков Экономика, Сегодня, 14:55
В России зафиксирована вспышка "мышиной лихорадки" Россия, Сегодня, 14:50
Как попытка Кремля обуздать рынок утечки данных в России сыграла в пользу Украины — The Guardian Мир, Сегодня, 14:31
Пограничники задержали иностранца, который пешком добирался до Словакии Украина, Сегодня, 14:24
ОВА показала последствия ракетного удара по Умани Украина, Сегодня, 14:24

Список рубрик:

Украина
Россия
Мир
Бизнес
Шоу-биз и культура
Спорт
Политика
ЧП
Наука и здоровье
Общество