категории | RSS

Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)

Meta представила новое поколение открытых моделей искусственного интеллекта — семейство Llama 4. Это первые нативно мультимодальные модели с открытыми весами, которые объединяют понимание изображений, видео и текста в единой архитектуре.

P.S кратко написал об этом в Телеграм канале, ссылка на постКлючевые особенности новых моделей

1. Llama 4 Scout - модель с 17 млрд активных параметров и 16 экспертами (109 млрд параметров в общей сложности). Является лучшей мультимодальной моделью в своём классе, превосходящей Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1. Главная особенность - рекордное контекстное окно в 10 млн токенов и возможность работы на одной GPU H100 (с квантизацией Int4).

2. Llama 4 Maverick - мощная модель с 17 млрд активных параметров и 128 экспертами (400 млрд параметров в общей сложности). По заявлению Meta, превосходит GPT-4o и Gemini 2.0 Flash по широкому спектру бенчмарков, при этом показывая результаты, сравнимые с DeepSeek v3 в задачах рассуждения и кодирования, но при вдвое меньшем количестве активных параметров. Экспериментальная версия для чата достигла ELO 1417 на LMArena.

3. Llama 4 Behemoth - учительская модель с 288 млрд активных параметров, 16 экспертами и почти 2 триллионами общих параметров. По утверждению Meta, превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro по нескольким STEM-бенчмаркам. Эта модель еще находится в процессе обучения и не выпущена публично.Технические инновации

Архитектура Mixture of Experts (MoE)

Впервые в линейке Llama используется архитектура MoE, где для обработки каждого токена активируется лишь часть параметров модели. Это значительно повышает эффективность как обучения, так и инференса.

Например, в Llama 4 Maverick каждый токен обрабатывается общим экспертом и одним из 128 маршрутизируемых экспертов, что позволяет снизить вычислительные затраты и латентность при сохранении высокого качества.

Нативная мультимодальность

Модели используют раннее слияние (early fusion) для интеграции текстовых и визуальных токенов в единую модельную архитектуру. Это позволяет совместно предобучать модель на больших объемах немаркированных текстовых, изображений и видеоданных.

Улучшенный визуальный энкодер основан на MetaCLIP, но обучен отдельно в сочетании с замороженной моделью Llama для лучшей адаптации к специфике языковой модели.

Экстремально длинный контекст

Llama 4 Scout поддерживает беспрецедентно длинный контекст в 10 миллионов токенов благодаря специальной архитектуре iRoPE (interleaved attention layers без позиционных эмбеддингов) и масштабированию температуры внимания во время инференса.

Новые методики обучения

MetaP - техника, позволяющая надежно устанавливать критические гиперпараметры модели, такие как скорость обучения для каждого слоя и масштабы инициализации.

FP8-precision - обучение с использованием 8-битной точности с плавающей запятой без потери качества. При обучении Llama 4 Behemoth достигнута производительность 390 TFLOPs/GPU с использованием 32K GPU.

Кодистилляция - использование Llama 4 Behemoth в качестве учителя для обучения меньших моделей с новой функцией потерь, которая динамически взвешивает мягкие и жесткие цели в процессе обучения.

Полностью асинхронный онлайн-RL - разработана новая инфраструктура для масштабного обучения с подкреплением, обеспечивающая 10-кратное улучшение эффективности обучения по сравнению с предыдущими поколениями.

Бенчмарки и стоимость

Стоимость:

$0.19-$0.49 за 1M токенов (в зависимости от настроек) против $4.38 у GPT-4o, про Sonnet 3.7 даже писать не стали 😂

Обработка изображений:

MMMU: 73.4 (против 71.7 у Gemini 2.0 Flash и 69.1 у GPT-4o)

MathVista: 73.7 (против 73.1 у Gemini и 63.8 у GPT-4o)

ChartQA: 90.0 (против 88.3 у Gemini и 85.7 у GPT-4o)

DocVQA: 94.4 (против 92.8 у GPT-4o)

Кодинг:

LiveCodeBench — 43.4 (DeepSeek v3.1 лидирует с 45.8/49.2)

Рассуждение и знания:

MMLU Pro: 80.5 (против 77.6 у Gemini, DeepSeek лидирует с 81.2)

GPQA Diamond: 69.8 (против 60.1 у Gemini, 68.4 у DeepSeek и 53.6 у GPT-4o)

Многоязычность:

Multilingual MMLU — 84.6 (против 81.5 у GPT-4o)

Длинный контекст:

MTOB (полная книга) — 50.8/46.7 (против 45.5/39.6 у Gemini)Llama 4 Behemoth vs флагманы

Учительская модель Behemoth показывает выдающиеся результаты:

LiveCodeBench: 49.4 (против 36.0 у Gemini 2.0 Pro)

MATH-500: 95.0 (против 82.2 у Claude Sonnet 3.7 и 91.8 у Gemini 2.0 Pro)

MMLU Pro: 82.2 (против 79.1 у Gemini 2.0 Pro)

GPQA Diamond: 73.7 (против 71.4 у GPT-4.5, 68.0 у Claude и 64.7 у Gemini)

Multilingual MMLU: 85.8 (против 85.1 у GPT-4.5 и 83.2 у Claude)

MMMU (понимание изображений): 76.1 (против 74.4 у GPT-4.5, 72.7 у Gemini и 71.8 у Claude)Доступность и применение

Модели Llama 4 Scout и Llama 4 Maverick уже доступны для загрузки на llama.com и Hugging Face. Они также используются в Meta AI в WhatsApp, Messenger, Instagram Direct и на веб-сайте Meta.AI.

Для разработчиков, предприятий и исследователей эти модели представляют золотую середину между высокой производительностью и доступностью по ресурсам, обеспечивая передовые возможности по мультимодальному пониманию, рассуждению и кодированию при значительно более низкой стоимости использования по сравнению с проприетарными решениями.Безопасность и этика

Meta уделила значительное внимание вопросам безопасности и снижения предвзятости в новых моделях (якобы):

Разработаны открытые инструменты безопасности: Llama Guard, Prompt Guard и CyberSecEval

Внедрен новый метод тестирования - Generative Offensive Agent Testing (GOAT)

Значительно снижен уровень отказов модели отвечать на вопросы о спорных политических и социальных темах (с 7% в Llama 3.3 до менее 2%)

Уменьшена политическая предвзятость модели до уровня, сравнимого с Grok (вдвое ниже, чем в Llama 3.3)



Источник новости: habr.com

DimonVideo
2025-04-06T00:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика