Учёные из AIRI, МФТИ и Лондонского математического института провели исследование. Исследователи выяснили, сколько информации может эффективно хранить и обрабатывать языковая модель.
В работе использовался метод сжатия текста. Это позволило измерить пределы ёмкости модели. Исследователи доказали: текст длиной 1,5 тысяч слов можно представить одним вектором. Вектор — это набор чисел, понятный модели. Он позволяет восстановить исходный текст. Об этом информационной службе Хабра рассказали в пресс‑службе Airi.
Обычно текст в модели разбивается на токены — слова или их части. Каждому токену соответствует свой вектор. Это требует больших вычислительных ресурсов. Учёные показали: вместо 1,5 тысяч векторов можно использовать один. Например, книгу «Хоббит» (120 тысяч токенов) можно сжать до 100–200 векторов.
Это важно для практики. Чем длиннее текст, тем дороже его обработка. Если заменить длинный контекст на один или несколько векторов, работа модели станет быстрее и дешевле. Однако метод, который использовали учёные, всё ещё сложен и требует много вычислений. Пока что на практике удаётся сжимать текст в 10–100 раз, а не в 1,5 тысячи.
Сжатие — это не только уменьшение объёма. Важно, чтобы модель могла работать с сжатым вектором так же, как с текстом. Здесь играет роль энтропия — мера сложности текста. Простой текст сжимается легче. Случайный и непредсказуемый — труднее.
Есть и другая проблема. Вектор может теоретически хранить много информации. Но модель использует только часть его возможностей — около 10–30%. Это снижает эффективность, но может помогать при ошибках в кодировании.
В исследовании применялся метод градиентного спуска. Этот метод позволяет найти нужные параметры вектора. Процесс требует времени и ресурсов. Цель работы — не создать готовое решение, а показать, чего можно добиться. Учёные предлагают научному сообществу найти способ сжимать тексты в один вектор за один шаг.
Источник новости: habr.com