Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.
Тест RELIC работает следующим образом: ИИ получает формальную грамматику — по сути, точный набор правил, определяющих искусственный язык, — а также строку символов. Затем модель должна определить, является ли строка допустимой в соответствии с правилами грамматики.
Например, «предложение» (обозначается как S) определяется как «часть A», за которой следует «часть B» (S → A B). «Часть A» сама по себе состоит из «символа C» и «символа D» (A → C D), и так далее до таких правил, как «символ C становится 't43'» (C → 't43'). ИИ должен определить, может ли строка «t43 t51 t66 t72» быть сгенерирована с помощью этих правил. Важно отметить, что модель не получает примеров правильных или неправильных строк и не проходит предварительную подготовку по конкретной грамматике — она должна применять правила «с нуля», полагаясь только на описание, данное в контексте.
Чтобы добиться успеха, модель должна распознавать и правильно применять множество правил в правильном непостоянном порядке — иногда многократно и во вложенных комбинациях. По словам исследователей, это похоже на проверку правильности написания компьютерной программы или грамматической правильности предложения. Существует два типа правил грамматики: те, которые разбивают абстрактные заполнители (нетерминалы, такие как S, A, B) на другие заполнители (например, S → A B), и те, которые заменяют заполнители конкретными символами (терминалами, такими как «t43») (например, C → «t43»). RELIC может автоматически генерировать неограниченное количество тестовых примеров разной сложности, не позволяя моделям просто запоминать ответы на основе известных тестовых данных.RELIC раскрывает знакомый узор
Команда протестировала восемь различных моделей ИИ, включая GPT-4.1 и o3 от OpenAI, модели Gemma от Google и DeepSeek-R1. Для исследования они создали набор данных RELIC-500, который включает 200 уникальных грамматик, каждая из которых содержит до 500 продукционных правил, и тестовые строки длиной до 50 символов. Исследователи отмечают, что даже самые сложные грамматики в RELIC-500 намного проще, чем в реальных языках программирования или человеческих языках.
Как правило, модели хорошо справлялись с простыми грамматиками и короткими строками. Но по мере усложнения грамматики или увеличения длины строки точность резко снижалась — даже для моделей, предназначенных для логических рассуждений, таких как OpenAI o3 или DeepSeek-R1. Один из ключевых выводов: хотя модели часто «знают» правильный подход — например, полностью анализируют строку, отслеживая применение каждого правила, — они не всегда применяют эти знания на практике.
Для простых задач модели, как правило, правильно применяли правила. Но по мере усложнения задач они переходили к эвристическим методам вместо построения правильного «деривационного дерева». Например, модели иногда предполагали, что строка верна, просто потому что она была особенно длинной, или искали только отдельные символы, которые встречались где-то в правилах грамматики, независимо от порядка. Такой подход на самом деле не проверяет, соответствует ли строка грамматике.Исследование выявило «недодумывание» при выполнении сложных задач
Чтобы изучить стратегии рассуждений моделей, исследователи использовали другой ИИ — o4-mini от OpenAI — в качестве своего рода «судьи ИИ» для оценки решений. Рецензенты-люди проверили выборку этих решений и обнаружили, что они совпадают примерно в 70% случаев, причём o4-mini особенно хорошо выявляет поверхностные, упрощённые решения.
Анализ показал, что при решении коротких и простых задач модели пытались применять правила шаг за шагом, выстраивая логичное «дерево разбора». Но при работе с более длинными или сложными примерами они по умолчанию использовали поверхностную эвристику.
Основная проблема, выявленная в ходе исследования, — это связь между сложностью задачи и «вычислениями во время тестирования» модели, то есть количеством вычислений, измеряемым числом промежуточных этапов рассуждений, которые модель использует при решении задачи. Теоретически эта нагрузка должна увеличиваться с увеличением длины входных данных. На практике исследователи увидели противоположное: при работе с короткими строками (до 6 символов для GPT-4.1-mini, 12 символов для o3) модели создавали относительно много промежуточных шагов, но по мере усложнения задач количество шагов уменьшалось.
Другими словами, модели обрывают свои рассуждения до того, как у них появляется реальная возможность проанализировать структуру. Такое «недодумывание» при выполнении более сложных задач очень похоже на то, что недавно наблюдали исследователи из Apple при работе с LRM, где активность мышления фактически снижалась по мере увеличения сложности.Языковым моделям требуется больше вычислительных мощностей или более интеллектуальные подходы
Оба исследования показывают, что, хотя современные модели рассуждений могут решать простые задачи, они принципиально не справляются со сложными задачами — и, как ни парадоксально, «думают» меньше, а не больше, по мере усложнения. RELIC выходит за рамки игровых сценариев, описанных в исследовании Apple, и тестирует навык, важный для ИИ в реальном мире: изучение и применение новых языков или систем правил с использованием только информации, представленной в контексте.
RELIC также напрямую проверяет более сложную форму контекстного понимания, чем в таких тестах, как «иголка в стоге сена», где нужно найти один-единственный факт в длинном отрывке. В RELIC релевантные правила разбросаны по всему тексту и должны быть объединены сложным образом.
Теоретический анализ, проведённый исследователями, показывает, что будущим языковым моделям потребуется либо гораздо больше вычислительных мощностей — например, больше токенов для рассуждений во время вывода, — либо принципиально более эффективные стратегии решения этих проблем. Они утверждают, что способность понимать и выполнять сложные инструкции необходима для по-настоящему интеллектуального ИИ.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник новости: habr.com