Не такой уж умный: лучшие модели ИИ "ломаются" из-за простого трюка, что придумали ученые
Любая, даже самая незначительная деталь, выбивает языковые модели из колеи и заставляет делать ошибки.
В компании Apple обнаружили, что большие модели искусственного интеллекта "рассуждают" гораздо хуже, чем от них ожидается. Об этом исследовании стало известно сайту Futurism.
"Рассуждение" — это слово, которое в наши дни часто употребляется в индустрии ИИ, особенно когда разработчики рекламируют возможности своих передовых языковых моделей. Как и в случае с "интеллектом", этот термин сложно ограничить, а возможности — измерить. Тем не менее Apple провела эксперимент и пришла к выводу, что способности языковых моделей весьма скудные, и они теряются, едва задача становится хоть немного сложнее.
Для исследования ученые более подробно изучили бенчмарк GSM8K, широко используемый набор данных, используемый для измерения навыков рассуждения ИИ, состоящий из тысяч математических текстовых задач уровня начальной школы. Удивительно, но они обнаружили, что даже небольшое изменение заданных задач — замена числа или имени персонажа здесь или добавление нерелевантной детали там — вызвало огромный всплеск ошибок ИИ. Другими словами, любое изменение вопроса, не влияющее на суть проблемы, выводят модель из строя.
По мнению исследователей, это доказывает, что модели ИИ на самом деле не рассуждают как люди и не способны к логическому мышлению. Вместо этого они просто пытаются воспроизвести те же шаги и последовательности, которые видели в наборах данных во время обучения.
В качестве примера команда из Apple привела математическую задачу:
"Оливер собирает 44 киви в пятницу. Затем он собирает 58 киви в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?".
Размер киви совершенно не важен для решения задачи, однако большинство моделей использовали подобные незначительные детали в процессе решения и неизменно допускали ошибки. К примеру, модель "o1-mini" (ранее Strawberry) от OpenAI решила вычесть киви поменьше из общей суммы.
По подсчетам исследователей, в целом точность моделей ИИ снизилась с 17,5% до ошеломляющих 65,7% в зависимости от модели. А в еще более простом тесте исследователи обнаружили, что простое исключение таких деталей, как имена собственные или числа, привело к значительному снижению способности модели правильно отвечать на вопрос: точность снизилась с 0,3% до почти 10% в 20 лучших моделях рассуждений.
Ранее писали, что ИИ начинает отказываться от человеческого мышления. Последняя модель OpenAI o1 начала искать правильные ответы на вопросы методом проб и ошибок.