Исследователи из Sakana AI представили метод Text-to-LoRA (T2L), который адаптирует большие языковые модели к новым задачам, используя только простое текстовое описание — никаких дополнительных обучающих данных не требуется.
Большие языковые модели обычно специализируются с помощью таких методов, как LoRA (адаптация с низким рангом). LoRA работает путём вставки небольших матриц с низким рангом в определённые слои модели, что делает процесс адаптации гораздо более эффективным, чем полная тонкая настройка. Вместо обновления миллиардов параметров требуется настроить всего несколько миллионов.
Тем не менее, для каждой новой задачи обычно требуются собственные обучающие данные и тщательно подобранные гиперпараметры, что делает процесс трудоёмким и ресурсозатратным. Text-to-LoRA автоматизирует этот этап. Система использует гиперсеть, обученную на 479 задачах из набора данных Super Natural Instructions. Научившись связывать описания задач с правильными настройками LoRA, T2L может генерировать веса LoRA для новой задачи всего за один шаг — даже если она никогда не выполнялась ранее.
Компания Sakana AI разработала три варианта T2L: T2L-L (55 миллионов параметров) генерирует сразу обе матрицы LoRA, T2L-M (34 миллиона параметров) использует общий выходной слой для обеих матриц, а T2L-S (5 миллионов параметров) генерирует только отдельные ранги матриц.
Команда сравнила два подхода к обучению T2L: обучение реконструкции, при котором система учится воссоздавать существующие адаптеры LoRA, и контролируемую тонкую настройку (SFT), при которой она обучается непосредственно на целевых задачах.
Модели SFT превзошли модели, основанные на реконструкции, в среднем достигнув 66,3% от эталонного показателя по сравнению с 61,8%. Исследователи объясняют это способностью SFT более эффективно группировать схожие задачи.Модели T2L, обученные с помощью контролируемой тонкой настройки, демонстрируют более высокую среднюю производительность в режиме «ноль-выстрелов»
В тестах по десяти стандартным бенчмаркам лучшая модель T2L показала среднюю производительность 67,7%. При прямом сравнении по восьми бенчмаркам T2L набрал 74,0%, уступив лишь специализированным адаптерам LoRA с показателем 75,8% — примерно 98% от эталонной производительности, но без каких-либо дополнительных усилий по обучению.Адаптация к невидимым задачам
T2L может выполнять совершенно новые задачи, превосходя по производительности многозадачные базовые модели LoRA и другие методы. Однако производительность зависит от того, насколько новая задача соответствует обучающим данным: чем ближе соответствие, тем лучше результат.Производительность преобразования текста в LoRA (S/M/L) с нулевым количеством ошибок по сравнению с базовыми показателями в десяти тестах; значения, отмеченные зеленым цветом, выше, чем у LoRA для конкретных задач, а значения, отмеченные жирным шрифтом, выше, чем у LoRA для нескольких задач
Четкие, ориентированные на задачу подсказки дают результаты, сравнимые со специализированными адаптерами, в то время как расплывчатые описания снижают производительность.Точные, ориентированные на конкретную задачу описания с использованием T2L LoRA на Mistral-7B позволяют получать правильные ответы GSM8K по разным алгоритмам, в то время как общие подсказки приводят к ошибкам. Это подчеркивает уровень управляемости T2L
Согласно исследованию, T2L очень эффективен и требует в четыре раза меньше вычислительных операций, чем классическая тонкая настройка, и не требует данных для обучения конкретным задачам. Он также надёжно работает с такими моделями, как Llama-3.1-8B и Gemma-2-2B.
Ограничения остаются: T2L чувствителен к формулировкам подсказок и по-прежнему уступает специализированным адаптерам LoRA в сложных задачах, выходящих за рамки дистрибутива. Тем не менее исследователи считают это важным шагом на пути к автоматизированной адаптации модели. Код и инструкции по установке доступны на GitHub.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник;)
Источник новости: habr.com