Сайт поздравляет Вас с Новым годом!!!

категории | RSS

Новая методика оптимизации LLM сокращает затраты памяти до 75%

Исследователи токийского стартапа Sakana AI разработали новую технологию, которая позволяет языковым моделям более эффективно использовать память. Это позволит предприятиям сократить расходы на создание приложений на основе больших языковых моделей (LLM) и других моделей на основе Transformer.

Метод называется « универсальной памятью трансформеров». Он использует специальные нейронные сети для оптимизации LLM с целью сохранения важных фрагментов информации и исключения избыточных деталей из контекста. Оптимизация памяти трансформера

Ответы моделей Transformer, основы LLM, зависят от содержимого их «контекстного окна », то есть того, что они получают в качестве входных данных от пользователей.

Окно контекста можно считать рабочей памятью модели. Тонкая настройка содержимого контекстного окна может оказать огромное влияние на производительность модели. Это привело к появлению целой области «инженерия подсказок».

Текущие модели поддерживают очень длинные контекстные окна с сотнями тысяч или даже миллионами токенов (числовых представлений слов, частей слов, фраз, понятий и чисел, вводимых пользователями в своих подсказках).

Это позволяет пользователям втиснуть больше информации в свои подсказки. Однако более длинные подсказки могут привести к более высоким вычислительным затратам и к снижению производительности. Оптимизация подсказок для удаления ненужных токенов при сохранении важной информации может снизить затраты и увеличить скорость.

Современные методы оптимизации подсказок требуют больших ресурсов или вынуждают пользователей вручную тестировать различные конфигурации, чтобы уменьшить размер подсказок.Модели памяти с нейронным вниманием

Универсальная память трансформеров оптимизирует подсказки с помощью модели памяти с нейронным внимание (NAMM), простых нейронных сетей, которые решают, «запоминать» или «забывать» каждый заданный токен, хранящийся в памяти LLM. 

Эта новая возможность позволяет трансформерам отбрасывать бесполезные или избыточные детали и сосредотачиваться на самой важной информации.Универсальная память трансформеров (источник: Sakana AI)

NAMM обучаются отдельно от LLM и объединяются с предварительно обученной моделью во время вывода, что делает их гибкими и простыми в развертывании. Однако им нужен доступ к внутренним функциям активации модели, что означает, что их можно применять только к моделям с открытым исходным кодом.

Как и другие методы, разработанные Sakana AI, NAMM обучаются с помощью эволюционных алгоритмов вместо методов оптимизации на основе градиента. Путем итеративной мутации и выбора наиболее эффективных моделей методом проб и ошибок эволюционные алгоритмы оптимизируют NAMM в сторону эффективности и производительности. Это особенно важно, поскольку NAMM пытаются достичь недифференцируемой цели: сохранения или отбрасывания токенов.

NAMM работают на уровнях внимания LLM, одном из ключевых компонентов архитектуры Transformer, который определяет отношения и важность каждого токена в окне контекста модели. Основываясь на значениях внимания, NAMM определяют, какие токены следует сохранить, а какие можно отбросить из окна контекста LLM. Этот механизм позволяет использовать обученный NAMM на различных моделях без дальнейшей модификации. Например, NAMM, обученный только на текстовых данных, может применяться к моделям зрения или многомодальным моделям без дополнительного обучения.NAMM исследуют слои внимания, чтобы определить, какие токены следует сохранить или удалить из контекстного окна (источник: Sakana AI)Универсальная память в действии

Чтобы протестировать концепцию универсальной памяти трансформатора в действии, исследователи обучили NAMM поверх модели Meta Llama 3-8B с открытым исходным кодом . Их эксперименты показывают, что с NAMM модели на основе Transformer лучше работают с проблемами естественного языка и кодирования на очень длинных последовательностях. Между тем, отбрасывая ненужные токены, NAMM позволил модели LLM сэкономить до 75% своей кэш-памяти при выполнении задач.Модели NAMM конкурируют с ведущими методами быстрой оптимизации, одновременно повышая производительность модели (источник: Sakana AI)

Они также протестировали модель на версии Llama 70B и на моделях Transformer, разработанных для других модальностей и задач, таких как Llava (компьютерное зрение) и Decision Transformer (обучение с подкреплением). 

Даже в этих условиях отсутствия распространения NAMM сохраняют свои преимущества, отбрасывая такие маркеры, как избыточные видеокадры и неоптимальные действия, позволяя своим новым базовым моделям сосредоточиться на наиболее релевантной информации для повышения производительности.Поведение, зависящее от задачи

Еще одним интересным открытием стало то, что NAMM автоматически корректируют свое поведение в зависимости от задачи.

Например, для задач кодирования модель отбрасывает смежные фрагменты токенов, соответствующие комментариям и пробелам, которые не влияют на выполнение кода.

С другой стороны, в задачах на естественном языке модель отбрасывает токены, которые представляют собой грамматическую избыточность и не влияют на смысл последовательности.

Исследователи выпустили код для создания собственных NAMM . Такие методы могут быть очень полезны для корпоративных приложений, обрабатывающих миллионы токенов, где повышение скорости и снижение затрат ведут к прибыли. Возможность повторного использования обученного NAMM также делает его универсальным инструментом для использования в различных приложениях на предприятии.

В будущем исследователи предлагают использовать более продвинутые методы, такие как использование NAMM во время обучения LLM, чтобы еще больше расширить возможности их памяти.



Источник новости: habr.com

DimonVideo
2024-12-20T18:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика