Исследование MIT: нерелевантные входные данные приводят к неудачам LLM

Разное

22:50 12-04-2025

DimonVideo

Исследование MIT: нерелевантные входные данные приводят к неудачам LLM

Недавнее исследование MIT изучает, как большие языковые модели (LLM) реагируют на систематические нарушения в дизайне подсказок при решении математических текстовых задач. Результаты показывают, что даже незначительные добавления нерелевантного контекста могут значительно ухудшить производительность.

Исследователи протестировали 13 открытых и закрытых исходных кодов LLM, включая Mixtral, Mistral, Llama и Command-R, используя вопросы из набора данных GSM8K, который фокусируется на арифметических задачах уровня начальной школы. Было введено четыре типа возмущений подсказок:

Нерелевантный контекст, например, записи Википедии или финансовые отчеты, занимающий до 90% окна ввода

Необычные инструкции, например, «Добавь цвет перед каждым прилагательным»

Дополнительный, но необязательный контекст, который был актуален по теме, но не был нужен для решения проблемы

Сочетание соответствующего контекста и вводящих в заблуждение инструкций

Наиболее существенное падение производительности произошло из-за нерелевантного контекста, который сократил количество правильно решенных задач в среднем на 55,89%. Необычные инструкции привели к снижению на 8,52%, в то время как несущественный релевантный контекст вызвал падение на 7,01%. При объединении обоих типов помех производительность упала на 12,91%.

Вопреки ожиданиям многих, размер модели не обеспечивал защиты от этих проблем. Mixtral, самая большая протестированная модель с 39 миллиардами активных параметров, на самом деле показала худшее снижение производительности.

Модели среднего размера, такие как Mistral-7B и Llama-3.2-3B, показали себя несколько лучше, хотя Llama-3.1-8B полностью не отреагировала, когда ей дали нерелевантный контекст. Даже GPT-4o от OpenAI не был застрахован, потеряв до 62,5 процентов своей точности, столкнувшись с нерелевантной контекстной информацией.

Сложность задач, измеряемая количеством требуемых шагов расчета, мало влияла на то, насколько восприимчивы модели к помехам. Производительность оставалась относительно стабильной на разных уровнях сложности задач.Производительность LLM резко падает, когда подсказки прерываются. Нерелевантный контекст приводит к самым значительным потерям

В данных выделяется один интересный выброс: модель, ориентированная на рассуждения, «o1-preview» едва ли вздрогнула от различных отвлекающих факторов, работая намного лучше, чем традиционные LLM. Однако успех вызывает некоторые вопросы — это потому, что модель специально настроена для математических задач, подобных тем, что были в исследовании, или она действительно развила лучшие навыки рассуждения для сортировки релевантной и нерелевантной информации? С практической точки зрения, различие может не иметь значения, пока подход работает.

Однако исследование Apple от октября 2023 года добавляет важный контрапункт. Согласно этому исследованию, даже модели рассуждений могут быть сбиты с толку нерелевантной информацией, поскольку они просто имитируют логические шаблоны, а не по-настоящему понимают логику.

По словам авторов, исследование показывает, насколько восприимчивы сегодняшние LLM к реалистичным помехам. Такого рода помехи часто случаются в реальных приложениях, проявляясь в виде редакционных вступлений, дополнительной справочной информации или противоречивых ссылок.

Однако исследование показывает, что даже тщательно продуманные подсказки не являются полным решением. Хотя следование этим принципам проектирования может помочь, производительность LLM остается непредсказуемой при столкновении с различными типами контекстуальных помех. Лучший дизайн подсказок улучшает результаты, но не устраняет фундаментальные проблемы надежности, с которыми сталкиваются эти модели.

Источник

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Исследование MIT: нерелевантные входные данные приводят к неудачам LLM

Разное

Похожие файлы

Баг в Windows 11 24H2 приводит к неудаляемому кэшу обновления ОС объёмом 8,63 ГБ

Исследование MIT показало проблемы с точностью ИИ в видеонаблюдении

Исследование MIT: AI не обладает стабильными ценностями, а лишь имитирует их

Исследование MIT: генеративный ИИ не понимает устройство мира