Международная группа ученых обнаружила слабые места в сотнях тестов, которые применяют для проверки безопасности и эффективности новых моделей искусственного интеллекта, сообщает The Guardian. По заключению экспертов, большинство из более 440 проанализированных бенчмарков имеют существенные недостатки, которые могут "подорвать обоснованность полученных утверждений" относительно достижений в сфере ИИ. 
Исследование провели компьютерные ученые из Института безопасности искусственного интеллекта правительства Великобритании совместно со специалистами университетов Стэнфорда, Беркли и Оксфорда. Они выяснили, что почти все тесты имеют слабые стороны хотя бы в одной области, а полученные результаты иногда являются "нерелевантными или даже обманчивыми". 
Бенчмарки, которые используются для измерения производительности и безопасности ИИ, играют ключевую роль при отсутствии четких государственных регуляций в Великобритании и США. Они должны свидетельствовать, соответствуют ли системы искусственного интеллекта интересам человека, и проверять их способности к логическому рассуждению, математическим расчетам и кодированию. 
[see_also ids="659623"]
Ведущий автор исследования, исследователь Оксфордского интернет-института Эндрю Бин, отметил, что именно бенчмарки лежат в основе большинства заявлений о прорывах в сфере искусственного интеллекта: "Почти все утверждения о достижениях в области искусственного интеллекта подкреплены контрольными показателями. Но без общих определений и обоснованных измерений трудно понять, действительно ли модели улучшаются, или это только кажется так". 
Исследование обнародовали на фоне растущих опасений относительно безопасности новых ИИ-моделей, которые крупные технологические компании выпускают со все большими темпами. Недавно некоторые корпорации были вынуждены изъять или ограничить доступ к своим разработкам после ряда инцидентов, когда системы искусственного интеллекта наносили вред — от клеветы до случаев самоубийства. 
На этой неделе Google отозвал одну из своих моделей — Gemma. Такое решение приняли после того, как она придумала ложные обвинения о якобы сексуальных отношениях без согласия между американским сенатором и полицейским, создав фальшивые ссылки на вымышленные публикации. 
[see_also ids="658601"]
"Никогда не было такого обвинения, нет такого лица, и нет таких новостных историй", — заявила сенатор от штата Теннесси Марша Блэкберн в письме к генеральному директору Google Сундару Пичаи. Она назвала этот случай "катастрофическим провалом надзора и этической ответственности". 
В ответ Google объяснила, что Gemma предназначалась для разработчиков и исследователей, а не для потребителей. Компания удалила модель с платформы AI Studio после сообщений о ее использовании сторонними пользователями. 
"Галлюцинации — когда модели придумывают факты — и подхалимство являются проблемами всей индустрии искусственного интеллекта, особенно для меньших открытых моделей, таких как Gemma", — отметили в компании. 
[see_also ids="657627"]
Хотя в исследовании рассматривали только открытые бенчмарки, авторы отметили, что крупные технологические компании имеют собственные закрытые тесты, которые остаются вне независимой проверки. Они сделали вывод о "насущной потребности в общих стандартах и передовом опыте" для оценки систем искусственного интеллекта. 
По словам Эндрю Бина, особенно тревожным является факт, что только 16% проанализированных тестов применяли статистические проверки или оценку неопределенности, которые могли бы засвидетельствовать точность их результатов. В других случаях, когда бенчмарки оценивали такие характеристики, как "безвредность" ИИ, само определение этих понятий было нечетким, что делает такие оценки бесполезными для реального анализа. 
Во время тестов безопасности ChatGPT и Claude выдавали рецепты взрывчатки и советы для киберпреступников. Компании OpenAI и Anthropic провели эксперимент, заставляя модели конкурентов выполнять опасные задачи, в результате чего чат-боты предоставляли подробные инструкции по изготовлению взрывчатых веществ, использованию биологического оружия и осуществлению кибератак.