Ученые из Принстонского и Стэнфордского университетов представили новый алгоритм сжатия больших языковых моделей (LLM), который обещает сделать использование таких моделей более доступным, экономичным и безопасным. В своей работе исследователи предложили способ уменьшить объем данных, хранимых в таких моделях, что может снизить энергозатраты и улучшить приватность пользователей.
Текущий способ работы с LLM требует отправки запросов на удаленные серверы, что дорого и требует больших вычислительных мощностей. Новый алгоритм CALDERA позволяет значительно сжать модель, уменьшив избыточность данных и точность обработки. Это дает возможность использовать сжатую модель локально на мобильных устройствах, таких как смартфоны и ноутбуки, без потери в точности выполнения задач.
Основная идея алгоритма заключается в комбинировании двух технологий — «низкой точности» и «низкого ранга». Это позволяет не только снизить требования к вычислительным ресурсам, но и ускорить обработку данных, что важно для использования LLM на устройствах с ограниченными возможностями.
Алгоритм был протестирован и результаты показали улучшение на 5% по сравнению с существующими методами. Это важно, поскольку даже небольшие улучшения могут значительно повысить точность предсказаний при обработке текстов.
Хотя использование сжатых моделей требует меньшего объема памяти и энергии, ученые предупреждают, что такие технологии могут истощить заряд устройства, если их использовать длительное время.
Источник новости: www.ferra.ru