категории | RSS

Новая модель искусственного интеллекта «Тitans» от Google обеспечивает долговременную память языковых моделей

Исследователи Google разработали новый тип модели Transformer, которая дает языковым моделям нечто похожее на долговременную память. Система может обрабатывать гораздо более длинные последовательности информации, чем текущие модели, что приводит к лучшей производительности при выполнении различных задач.

Новая архитектура «Titans» черпает вдохновение из того, как работает человеческая память. Объединяя искусственную краткосрочную и долгосрочную память через блоки внимания и MLP памяти, система может работать с длинными последовательностями информации.

Одной из умных функций системы является то, как она решает, что запоминать. Titans использует «удивленность» в качестве своей основной метрики — чем неожиданнее информация, тем больше вероятность, что она сохранится в долговременной памяти. Система также знает, когда следует забывать вещи, что помогает ей эффективно использовать пространство памяти.

Команда создала три разные версии Titans, каждая из которых по-разному обрабатывает долговременную память: память как контекст (MAC), память как контроль доступа (ворота) (MAG), память как слой (MAL). Хотя каждая версия имеет свои сильные стороны, вариант MAC особенно хорошо работает с очень длинными последовательностями.

В ходе обширного тестирования Titans превзошли традиционные модели, такие как классический Transformer, и более новые гибридные модели, такие как Mamba2, особенно при работе с очень длинными текстами. Команда утверждает, что он может эффективнее обрабатывать контекстные окна более 2 миллионов токенов, устанавливая новые рекорды как для моделирования языка, так и для прогнозирования временных рядов с длинными контекстами.

Система также преуспела в тесте «Иголка в стоге сена», где ей нужно найти определенную информацию в очень длинных текстах. Titans достигла точности более 95% даже с текстами из 16 000 токенов. Хотя некоторые модели от OpenAI, Anthropic и Google работают лучше, они намного больше — самая большая версия Titans имеет всего 760 миллионов параметров.Модели Titans также значительно превосходят более крупные языковые модели в задачах, требующих понимания более обширных контекстов

Titans действительно показала свою силу в тесте BABILong , сложном тесте на долгосрочное понимание, где модели должны связывать факты, разбросанные по очень длинным документам. Система превзошла более крупные модели, такие как GPT-4 , RecurrentGemma-9B и Llama3.1-70B. Она даже превзошла Llama3 с Retrieval Augmented Generation (RAG), хотя некоторые специализированные модели поиска все еще работают лучше.

Команда рассчитывает сделать код общедоступным в ближайшем будущем. Хотя Titans и подобные архитектуры могут привести к языковым моделям, которые обрабатывают более длинные контексты и делают лучшие выводы, преимущества могут выйти за рамки простой обработки текста. Ранние тесты команды с моделированием ДНК показывают, что технология может улучшить и другие приложения, включая видео-модели, при условии, что многообещающие результаты тестов подтвердятся в реальном использовании.

Источник



Источник новости: habr.com

DimonVideo
2025-01-18T16:50:09Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика