Исследование, проведенное учеными из Apple, ставит под сомнение интеллектуальные способности крупных языковых моделей (LLM) от OpenAI, Google и Meta*, которые ранее получили признание за свои впечатляющие навыки рассуждения. Исследователи утверждают, что эти модели скорее демонстрируют «сложное сопоставление шаблонов», чем «истинное логическое мышление». Даже продвинутые модели, такие как OpenAI o1, не исключение.
Одним из основных тестов для проверки навыков рассуждения языковых моделей является GSM8K. Однако его популярность создала риск того, что модели могли быть обучены на его данных, что искажает представление о их реальных способностях. Проще говоря, модели могут «знать» ответы заранее, что ставит под сомнение их способность решать задачи самостоятельно, без опоры на заранее выученные данные.
Чтобы оценить способность LLM к настоящему рассуждению, команда разработала новый тест — GSM-Symbolic. Этот тест сохраняет суть традиционных задач, но меняет переменные, такие как имена, числа, сложность, а также добавляет несущественную информацию, которая не влияет на решение. В результате тестирования более 20 моделей, включая OpenAI o1, GPT-4o, Gemma 2 (Google) и Llama 3 (Meta*), было выявлено снижение точности при любых изменениях в задачах.
Даже при незначительных изменениях переменных (например, имен или чисел) точность моделей снизилась на несколько процентов. Модели OpenAI показали лучшие результаты по сравнению с другими, но отклонения всё равно были значительными, что не должно было происходить при стабильной работе. Самый интересный момент произошел, когда исследователи добавили в задачи «кажущиеся важными, но на деле несущественные утверждения».
Чтобы проверить, действительно ли LLM опираются больше на сопоставление шаблонов, чем на логику, в математические задачи добавлялись ненужные фразы. Например, задача выглядела так:
«Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?»
При добавлении таких деталей точность всех моделей существенно снизилась. Модель OpenAI o1 показала лучший результат, потеряв 17,5% точности, но для других, таких как Microsoft Phi 3, это падение было значительно большим — вплоть до 65%.
Исследователи отметили, что LLM часто брали из задачи несущественные данные, как, например, пять маленьких киви, что не имело значения для правильного ответа. Это демонстрирует, что модели склонны превращать текстовые утверждения в математические операции, не понимая их смысловой нагрузки. Это подтверждает гипотезу о том, что LLM действуют по принципу шаблонного мышления, а не осознанного рассуждения.Выводы
Исследование прямо указывает на «критический недостаток» LLM в способности понимать математические концепции и различать релевантную информацию в задачах. Важно отметить, что исследование проводилось сотрудниками Apple, которая конкурирует с такими компаниями, как Google, Meta* и OpenAI. Однако Apple также сотрудничает с OpenAI, и сама активно разрабатывает собственные ИИ-модели.
Тем не менее, исследование выявило существенные проблемы с формальной логикой у LLM, что подчеркивает необходимость более критического взгляда на текущие успехи в области искусственного интеллекта. Эти результаты служат напоминанием о том, что нельзя безоглядно верить в «разум» ИИ, и нужно подходить к его возможностям с долей здорового скептицизма.
*признана экстремистской организацией и её деятельность запрещена на территории России
Источник
Источник новости: habr.com