Лучше возьмите калькулятор: исследователи доказали, что чат-ботам нельзя доверять вычисления

Сегодня, 11:49 | Технологии
Лучше возьмите калькулятор: исследователи доказали, что чат-ботам нельзя доверять вычисления
фото c Зеркало недели

Чат-боты с искусственным интеллектом все чаще используют для простых вычислений. Впрочем, новое исследование показало, что они ошибаются почти в четырех из десяти случаев, хотя результаты существенно различаются в зависимости от модели и типа задач, пишет EuroNews.

Исследователи Omni Research on Computing in AI (ORCA) проверили точность пяти популярных моделей ИИ на 500 реальных математических задачах. В среднем вероятность ошибки составляла около 40 процентов, что ставит под сомнение надежность таких инструментов для повседневных расчетов.

В тестировании, проведенном в октябре 2025 года, приняли участие ChatGPT-5, Gemini 2.5 Flash, Claude Sonnet 4.5, DeepSeek V3.2 и Grok-4. Все модели получили одинаковый набор из 500 вопросов, каждый из которых имел только один правильный ответ.

[see_also ids="652878"]

Самый высокий общий результат показал Gemini от Google — 63 процента правильных ответов. Почти столько же набрал Grok от xAI — 62,8 процента, тогда как DeepSeek получил 52 процента.

ChatGPT завершил тест с результатом 49,4 процента, а Claude занял последнее место с 45,2 процента. Средний показатель всех пяти моделей составил 54,5 процента по всем заданиям.

"Хотя точные рейтинги могут измениться, более широкий вывод, вероятно, останется неизменным: числовая надежность остается слабым местом в современных моделях искусственного интеллекта", — заявил соавтор тестирования ORCA Давид Сиуда.

Лучше всего модели справились с базовой математикой и преобразованиями, где средняя точность составила 72,1 процента. В этой категории Gemini достиг 83 процентов, опередив Grok и DeepSeek, тогда как ChatGPT набрал 66,7 процента.

[see_also ids="666350"]

Худшие результаты зафиксировали в физике, где средняя точность составила лишь 35,8 процента. Лучшим здесь стал Grok с 43,8 процента, а Claude показал лишь 26,6 процента правильных ответов.

Особенно слабыми оказались результаты DeepSeek в биологии и химии — всего 10,6 процента. Это означает, что модель ошибалась примерно в девяти из десяти вопросов в этой категории.

Наибольший разрыв между моделями исследователи зафиксировали в финансах и экономике. Gemini и Grok достигли точности 76,7 процента, тогда как ChatGPT, Claude и DeepSeek не превысили 50 процентов.

[see_also ids="665601"]

Эксперты также проанализировали типичные ошибки моделей. Самыми распространенными стали "небрежные математические расчеты", которые составили 68 процентов всех ошибок, в частности, проблемы с округлением и базовыми вычислениями.

"Их слабое место — округления: если расчет многоэтапный и требует округления, конечный результат обычно очень неверный", — отметил Сиуда.

В отчете отмечается, что даже самые современные бесплатные модели ИИ не гарантируют точности. Исследователи предостерегают, что использование чат-ботов для математики требует осторожности и дополнительной проверки результатов.

Ранее исследование показало, что чат-бот Grok хуже всего реагирует на запросы о суициде, часто предоставляя опасные советы или отвечая сарказмом. Хотя модель Gemini показала самый высокий уровень эмпатии, абсолютно все протестированные системы искусственного интеллекта допустили критические ошибки при обнаружении кризисных состояний.

Источник: Зеркало недели
Постоянное место статьи: http://newsme.com.ua/tech/technologies/4850913/

Последние новости:

РФ атаковала дронами порты Одессчины, есть повреждения Украина, Сегодня, 14:50
"Туда ему и дорога": Влада Яму унизили на шоу "Танцы со звездами", которое сделало его популярным Шоу-бизнес, Сегодня, 14:49
"Украинская бронетехника" в 2025 году выделила рекордные 78 млн на благотворительность Общество, Сегодня, 14:44
Прокремлевские экономисты предупредили о растущей угрозе рецессии Россия, Сегодня, 14:33
Из оккупированной Херсонщины вернули двух детей Украина, Сегодня, 14:06
IFAB в январе обсудит поправки к футбольным правилам Футбол, Сегодня, 14:06
Стали известны новые подробности ДТП с участием Джошуа Спорт, Сегодня, 14:04
Фонд гарантирования выставил на продажу активы пяти банков Экономика, Сегодня, 13:55
Враг оккупировал три села в Донецкой области - DeepState Украина, Сегодня, 13:43
По стопам Роналду и Дженнифер Лопес: украинский музыкант решил застраховать руки и объяснил, чего больше всего боится Шоу-бизнес, Сегодня, 13:41
В Киеве 1 и 2 января метро будет работать по изменённому графику Киев, Сегодня, 13:38
В 14 приграничных сёлах Черниговской области объявили эвакуацию Украина, Сегодня, 13:38
СМИ рассказали подробности первого удара США по объекту в Венесуэле Мир, Сегодня, 13:33
Украинцам будут выплачивать по 8647 гривен: кто может получить деньги после 1 января Рынки, Сегодня, 13:23
В Кремле отказались предоставить доказательства атаки на резиденцию Путина Мир, Сегодня, 13:21
Птицы Мадьяра уничтожили хаб запуска шахедов Украина, Сегодня, 13:47
Лукашенко помиловал двадцать "экстремистов" Мир, Сегодня, 13:07
Рождественские подарки Ким Кардашьян возмутили зоозащитников: что получили четверо ее детей Шоу-бизнес, Сегодня, 12:58
В МИД Украины сделали заявление по поводу "атаки" на Валдае Украина, Сегодня, 12:55
В России пожаловались на трудности в создании "эликсира молодости" Россия, Сегодня, 12:52

Список рубрик:

Украина
Россия
Мир
Бизнес
Шоу-биз и культура
Спорт
Политика
ЧП
Наука и здоровье
Общество