Недавнее исследование MIT изучает, как большие языковые модели (LLM) реагируют на систематические нарушения в дизайне подсказок при решении математических текстовых задач. Результаты показывают, что даже незначительные добавления нерелевантного контекста могут значительно ухудшить производительность.
Исследователи протестировали 13 открытых и закрытых исходных кодов LLM, включая Mixtral, Mistral, Llama и Command-R, используя вопросы из набора данных GSM8K, который фокусируется на арифметических задачах уровня начальной школы. Было введено четыре типа возмущений подсказок:
Нерелевантный контекст, например, записи Википедии или финансовые отчеты, занимающий до 90% окна ввода
Необычные инструкции, например, «Добавь цвет перед каждым прилагательным»
Дополнительный, но необязательный контекст, который был актуален по теме, но не был нужен для решения проблемы
Сочетание соответствующего контекста и вводящих в заблуждение инструкций
Наиболее существенное падение производительности произошло из-за нерелевантного контекста, который сократил количество правильно решенных задач в среднем на 55,89%. Необычные инструкции привели к снижению на 8,52%, в то время как несущественный релевантный контекст вызвал падение на 7,01%. При объединении обоих типов помех производительность упала на 12,91%.
Вопреки ожиданиям многих, размер модели не обеспечивал защиты от этих проблем. Mixtral, самая большая протестированная модель с 39 миллиардами активных параметров, на самом деле показала худшее снижение производительности.
Модели среднего размера, такие как Mistral-7B и Llama-3.2-3B, показали себя несколько лучше, хотя Llama-3.1-8B полностью не отреагировала, когда ей дали нерелевантный контекст. Даже GPT-4o от OpenAI не был застрахован, потеряв до 62,5 процентов своей точности, столкнувшись с нерелевантной контекстной информацией.
Сложность задач, измеряемая количеством требуемых шагов расчета, мало влияла на то, насколько восприимчивы модели к помехам. Производительность оставалась относительно стабильной на разных уровнях сложности задач.Производительность LLM резко падает, когда подсказки прерываются. Нерелевантный контекст приводит к самым значительным потерям
В данных выделяется один интересный выброс: модель, ориентированная на рассуждения, «o1-preview» едва ли вздрогнула от различных отвлекающих факторов, работая намного лучше, чем традиционные LLM. Однако успех вызывает некоторые вопросы — это потому, что модель специально настроена для математических задач, подобных тем, что были в исследовании, или она действительно развила лучшие навыки рассуждения для сортировки релевантной и нерелевантной информации? С практической точки зрения, различие может не иметь значения, пока подход работает.
Однако исследование Apple от октября 2023 года добавляет важный контрапункт. Согласно этому исследованию, даже модели рассуждений могут быть сбиты с толку нерелевантной информацией, поскольку они просто имитируют логические шаблоны, а не по-настоящему понимают логику.
По словам авторов, исследование показывает, насколько восприимчивы сегодняшние LLM к реалистичным помехам. Такого рода помехи часто случаются в реальных приложениях, проявляясь в виде редакционных вступлений, дополнительной справочной информации или противоречивых ссылок.
Однако исследование показывает, что даже тщательно продуманные подсказки не являются полным решением. Хотя следование этим принципам проектирования может помочь, производительность LLM остается непредсказуемой при столкновении с различными типами контекстуальных помех. Лучший дизайн подсказок улучшает результаты, но не устраняет фундаментальные проблемы надежности, с которыми сталкиваются эти модели.
Источник
Источник новости: habr.com