категории | RSS

LCPO меняет подход к обучению AI, снижая затраты на вычисления

Процесс рассуждения через цепочку (Chain-of-Thought, CoT) — это метод, при котором модели разбивают задачи на управляемые «мысли», прежде чем искать ответ. Этот подход стал важной частью современных больших языковых моделей (LLMs). Однако такие модели могут создавать высокие затраты на вычисления из-за большого количества генерируемых CoT-токенов. В новой работе исследователи из Университета Карнеги-Меллона предложили технику обучения языковых моделей, которая дает разработчикам больше контроля над длиной CoT.

Эта техника, названная оптимизацией политики с контролем длины (Length Controlled Policy Optimization, LCPO), учит модель предоставлять правильные ответы, одновременно ограничивая «мысли» модели заданным токен-бюджетом. Эксперименты показывают, что модели, обученные с использованием LCPO, демонстрируют плавный баланс между точностью и затратами и могут даже превосходить более крупные модели при одинаковой длине рассуждений. LCPO может существенно сократить затраты на использование языковых моделей в корпоративных приложениях, экономя тысячи токенов в каждом раунде взаимодействия с моделью.

Модели рассуждения, такие как OpenAI o1 и DeepSeek-R1, обучены с помощью обучения с подкреплением (Reinforcement Learning, RL), чтобы использовать масштабирование на этапе тестирования и генерировать CoT-цепочки перед предоставлением ответа. Эмпирические данные показывают, что чем дольше модели «думают», тем лучше они справляются с задачами рассуждения. Например, модель R1 изначально обучалась исключительно с использованием RL без размеченных людьми примеров. Одним из важных открытий стало то, что по мере улучшения производительности модели она также училась генерировать более длинные CoT-цепочки.

Хотя более длинные цепочки рассуждений, как правило, приводят к более точным ответам, они также создают вычислительные сложности при масштабировании. В настоящее время существует мало контроля над бюджетом вычислений во время тестирования, и длина последовательностей может легко достичь десятков тысяч токенов без значительного прироста качества. Были попытки контролировать длину цепочек рассуждений, но они обычно ухудшали производительность модели.

Классический метод RL обучает LLM-ы достигать правильного ответа, но LCPO меняет этот подход, вводя два обучающих критерия: 1) получить правильный результат и 2) держать цепочку рассуждений в пределах конкретной длины токенов. Таким образом, если модель выдает правильный ответ, но генерирует слишком много токенов, ей будет назначен штраф, и она будет вынуждена придумать цепочку рассуждений, которая приведет к тому же результату, но с меньшим количеством токенов.

«Модели, обученные с LCPO, учатся соблюдать ограничения по длине, одновременно оптимизируя качество рассуждений, вместо использования инженерных эвристик», — пишут исследователи. Они предлагают два варианта LCPO: (1) LCPO-exact, который требует, чтобы длина цепочки рассуждений была точно равна целевой длине, и (2) LCPO-max, который требует, чтобы выходная последовательность была не длиннее целевой длины.

Для тестирования методики исследователи дообучили модель рассуждения с 1,5 миллиарда параметров (Qwen-Distilled-R1-1.5B) на двух предложенных схемах LCPO, создав модели L1-max и L1-exact. Обучение было основано на математических задачах с четкими и проверяемыми результатами. Однако оценка включала не только математические задачи, но и задачи за пределами обучающего набора, такие как измерение multitask language understanding (MMLU) и выпускной тест на Google-несклонность к поиску ответов (GPQA).

Их результаты показывают, что модели L1 могут точно балансировать между количеством токенов и производительностью рассуждений, плавно переходя от коротких, эффективных цепочек рассуждений к более длинным и точным рассуждениям, изменяя ограничения длины. Важно отметить, что в некоторых задачах модели L1 могут воспроизводить производительность исходной модели рассуждения при меньших затратах на токены.Модели L1 превосходят S1 и базовые модели по соотношению затрат и точности (источник: arXiv).

По сравнению с S1 — единственным другим методом, который ограничивает длину CoT — модели L1 показывают до 150% улучшение производительности при различных токен-бюджетах. «Эта существенная разница может быть объяснена двумя ключевыми факторами, — пишут исследователи. — (1) L1 умно адаптирует свою цепочку рассуждений под указанные ограничения длины, не прерывая процесс рассуждения, тогда как S1 часто обрывается на середине рассуждения; и (2) L1 специально обучена генерировать высококачественные цепочки рассуждений разной длины, эффективно сокращая длинные цепочки до более коротких».

L1 также превосходит свои аналоги без рассуждений на 5% и GPT-4o на 2% при одинаковой длине генерации. «Насколько нам известно, это первая демонстрация того, что модель с 1,5 миллиардами параметров может превзойти модели, такие как GPT-4o, при использовании одинаковой длины генерации», — пишут исследователи.

Интересно, что CoT-цепочки модели показывают, что она учится корректировать процесс рассуждения в зависимости от токен-бюджета. Например, при более длинных бюджетах модель с большей вероятностью генерирует токены, связанные с самокоррекцией и проверкой (такие как «но» и «подожди») и выводом («поэтому» и «так что»). Модели, обученные с использованием LCPO, корректируют цепочку рассуждений в зависимости от своего токен-бюджета (источник: arXiv).

Помимо улучшенного контроля длины в стандартных математических задачах рассуждения, модели L1 демонстрируют удивительно хорошую генерализацию на задачи за пределами обучающего набора, включая GPQA и MMLU.

Это новое направление исследований, касающееся моделей, которые могут корректировать свои рассуждения в зависимости от бюджета токенов, может иметь важные применения для реальных приложений. Оно позволяет предприятиям масштабировать модели рассуждений без чрезмерных расходов. Это мощная альтернатива использованию более крупных и дорогих моделей, которая может стать ключевым фактором для повышения экономической эффективности AI в приложениях с большим объемом данных.

Источник



Источник новости: habr.com

DimonVideo
2025-03-15T22:50:04Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика