Google разработала масштабируемый процесс active learning, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.
Метод работает следующим образом: сначала стартовая модель (LLM-0) принимает промпт и автоматически размечает огромный массив данных, создавая базовую разметку. Затем кластеризация анализирует эту разметку и выявляет примеры, где модель ошибается или проявляет неуверенность. Эти примеры считаются наиболее спорными и ценными для обучения.
Далее происходит отбор данных: из выявленных кластеров выбираются наиболее информативные и разнообразные примеры, которые требуют улучшения.
Эти данные передаются экспертам для ручной разметки, чтобы обеспечить высокую точность и качество. После этого обновленные данные используются для дообучения модели.
Этот процесс повторяется: модель дообучается, снова происходит кластеризация и отбор спорных примеров, затем эксперты выполняют разметку, и модель снова дообучается. Таким образом, метод постоянно совершенствуется, повышая точность и качество работы модели.Результаты:
Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
Улучшение метрики Cohen’s Kappa на 55–65%.
В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.Что такое Cohen’s Kappa?
Это метрика, которая показывает, насколько два «судьи» (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
0.0 — нет согласия (или хуже случайного)
0.41–0.60 — умеренное согласие
0.61–0.80 — значительное
0.81–1.00 — почти полное согласие. В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).Чем лучше предыдущих методов:
Точечная разметка: размечаются только самые информативные примеры.
Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
Экономия ресурсов: меньше времени и затрат на разметку.
Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник новости: habr.com