категории | RSS

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.

Возможность использовать SLM в сложных задачах логического мышления может быть очень полезной, поскольку предприятия ищут новые способы применения этих новых моделей в различных средах и приложениях.

Масштабирование во время тестирования (TTS) — это процесс предоставления LLM дополнительных вычислительных ресурсов во время логического вывода для повышения их производительности при выполнении различных задач. Ведущие модели логического вывода, такие как OpenAI o1 и DeepSeek-R1, используют «внутреннее TTS», то есть они обучены «думать» медленно, генерируя длинную последовательность токенов цепочки мыслей (CoT).

Альтернативным подходом является «внешняя TTS», при которой производительность модели повышается (как следует из названия) извне. Внешняя TTS подходит для перепрофилирования существующих моделей для решения задач рассуждения без их дальнейшей тонкой настройки. Внешняя настройка TTS обычно состоит из «модели политики», которая является основным LLM, генерирующим ответ, и модели вознаграждения процесса (PRM), которая оценивает ответы модели политики. Эти два компонента соединяются вместе с помощью метода выборки или поиска.

Самая простая настройка — «best-of-N», когда модель политики генерирует несколько ответов, а PRM выбирает один или несколько лучших ответов для составления окончательного ответа. Более продвинутые внешние методы TTS используют поиск. В «поиске по лучу» модель разбивает ответ на несколько этапов.

На каждом этапе он выбирает несколько вариантов ответов и пропускает их через PRM. Затем он выбирает один или несколько подходящих вариантов и генерирует следующий шаг ответа. А при «поиске по множеству вариантов ответов» (DVTS) модель генерирует несколько вариантов ответов, чтобы создать более разнообразный набор возможных ответов, прежде чем объединить их в окончательный ответ.Различные методы масштабирования времени тестирования.

Выбор правильной стратегии преобразования текста в речь зависит от множества факторов. Авторы исследования провели систематическое изучение того, как различные модели политик и программные решения влияют на эффективность методов преобразования текста в речь.

Их результаты показывают, что эффективность во многом зависит от политики и моделей PRM. Например, для небольших моделей политики методы, основанные на поиске, превосходят метод «лучший из N». Однако для больших моделей политики метод «лучший из N» более эффективен, поскольку модели обладают лучшими возможностями логического мышления и не нуждаются в модели вознаграждения для проверки каждого шага логического мышления.

Их результаты также показывают, что правильная стратегия TTS зависит от сложности задачи. Например, для небольших моделей политик с менее чем 7 миллиардами параметров метод «лучший из N» лучше подходит для простых задач, а метод «лучшего поиска» — для более сложных. Для моделей политик с количеством параметров от 7 до 32 миллиардов метод «разнообразного поиска по дереву» хорошо подходит для простых и средних задач, а метод «лучшего поиска» — для сложных. Но для больших моделей политики (72 миллиарда параметров и более) метод «лучший из N» является оптимальным для всех уровней сложности.SLM превосходят большие модели в задачах MATH и AIME-24.

Основываясь на этих результатах, разработчики могут создавать оптимальные с точки зрения вычислений стратегии TTS, которые учитывают модель политики, PRM и сложность задачи, чтобы наилучшим образом использовать вычислительные ресурсы для решения логических задач.

Например, исследователи обнаружили, что модель Llama-3.2-3B с оптимальной для вычислений стратегией TTS превосходит Llama-3.1-405B в тестах MATH-500 и AIME24, двух сложных математических тестах. Это показывает, что SLM может превзойти модель, которая в 135 раз больше, при использовании оптимальной для вычислений стратегии TTS.

В других экспериментах они обнаружили, что модель Qwen2.5 с 500 миллионами параметров может превзойти GPT-4o при правильной стратегии синтеза речи, оптимизированной для вычислений. Используя ту же стратегию, версия DeepSeek-R1 с 1,5 миллиардами параметров превзошла o1-preview и o1-mini на тестах MATH-500 и AIME24.

С учётом затрат на обучение и вывод данных результаты показывают, что при использовании стратегий масштабирования, оптимизированных для вычислений, SLM могут превосходить более крупные модели с 100–1000-кратным меньшим количеством операций с плавающей запятой.

Результаты исследования показывают, что TTS с оптимальными вычислениями значительно улучшает способность языковых моделей к логическому мышлению. Однако по мере увеличения размера модели TTS постепенно теряет эффективность.

«Это говорит о том, что эффективность TTS напрямую связана со способностью модели политики к логическому мышлению, — пишут исследователи. — В частности, для моделей со слабыми логическими способностями масштабирование вычислений во время тестирования приводит к значительному улучшению, в то время как для моделей с сильными логическими способностями выигрыш ограничен».

Исследование подтверждает, что SLM могут работать лучше, чем более крупные модели, при использовании методов масштабирования времени тестирования, оптимизированных для вычислений. Хотя в этом исследовании основное внимание уделяется математическим тестам, исследователи планируют расширить его на другие задачи, требующие логического мышления, такие как программирование и химия.

Источник



Источник новости: habr.com

DimonVideo
2025-02-21T10:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика