Китайский стартап в области искусственного интеллекта MiniMax выпустил семейство моделей с открытым исходным кодом MiniMax-01. Компания заявляет, что её модель MiniMax-Text-01 может обрабатывать контексты до 4 миллионов токенов - в два раза больше, чем у ближайшего конкурента.
Новая линейка включает две модели: MiniMax-Text-01 для обработки текста и MiniMax-VL-01 для обработки как текстовых, так и визуальных данных. Это расширенное контекстное окно может дать AI-агентам своего рода «долговременную память», позволяя им собирать, объединять и сохранять информацию из нескольких источников для последующего использования.
Для эффективной обработки таких длинных контекстов MiniMax использует гибридный подход. Система сочетает механизм «Молниеносного внимания» с традиционными блоками Transformer в соотношении 7:1. По словам команды, такая настройка значительно снижает требования к обработке длинных входных данных, сохраняя при этом преимущества архитектуры Transformer.
Модель также использует структуру «Смесь экспертов» (MoE) - по сути, слой специализированных подмоделей, оптимизированных для выполнения различных задач. Система выбирает и объединяет наиболее подходящих экспертов в зависимости от того, с чем она работает. В MiniMax-Text-01 есть 32 таких эксперта, каждый из которых содержит 45,9 миллиарда параметров, что в сумме составляет около 456 миллиардов параметров.
Компания MiniMax опубликовала результаты тестов, которые показывают, что их модель работает так же хорошо, как и лучшие коммерческие варианты, такие как GPT-4 и Claude 3.5 Sonnet, в стандартных оценках. Семь ведущих языковых моделей демонстрируют разные результаты в различных эталонных тестах. MiniMax-Text-01 стабильно показывает лучшие результаты, в том числе в MMLU (88,5%).
Компания заявляет, что MiniMax-Text-01 особенно хорошо справляется с длинными контекстами, обеспечивая 100-процентную точность в тесте «Иголка в стоге сена» с 4 миллионами токенов.
Однако стоит отметить, что годичный выпуск Gemini 1.5 Pro от Google с окном в 2 миллиона токенов получил такой же высокий балл. В ходе исследования было установлено, что данный метод тестирования не является эффективным. Более того, эксперименты показали, что использование больших контекстных окон в системах RAG не даёт значительных преимуществ по сравнению с меньшими окнами.Тест на поиск иголки в стоге сена с 4 миллионами точек данных показывает неизменно оптимальную производительность.
Источник
Источник новости: habr.com