категории | RSS

Результаты Llama 4 от Meta* в бенчмарках

LMArena опубликовала доказательства, устраняющие опасения по поводу «экспериментальной» модели искусственного интеллекта Meta*. Платформа опубликовала более 2000 сравнений, включая подсказки пользователей, ответы моделей и предпочтения пользователей.

«Интерпретация Meta* нашей политики не соответствует тому, чего мы ожидаем от поставщиков моделей», — заявила LMArena. «Meta* должна была яснее заявить, что «Llama-4-Maverick-03-26-Experimental» — это настраиваемая модель, оптимизированная под человеческие предпочтения».

Данные показывают, что Llama 4 последовательно выдает более длинные, более форматированные ответы с частым использованием смайликов, что говорит о том, что Meta* специально настроила модель для эталонной производительности. LMArena планирует протестировать стандартную версию Llama-4-Maverick и вскоре опубликовать эти результаты.

Artificial Analysis пересмотрела свои критерии оценки и обновила баллы Llama 4. Принимая ответы в формате «Лучший ответ — A» для вопросов с несколькими вариантами ответов, платформа зафиксировала значительные изменения в тестах MMLU Pro и GPQA Diamond. Индекс интеллекта Scout вырос с 36 до 43, а Maverick — с 49 до 50, что демонстрирует, как методы оценки могут влиять на результаты тестов.Последние результаты тестов показывают, что модели Llama 4 набирают обороты, но все еще отстают от Deepseek. | Изображение: ArtificialAnlysis

Новые данные подчеркивают эффективную конструкцию Maverick — он достигает этих показателей с 17 миллиардами активных параметров по сравнению с 37 миллиардами у Deepseek V3. В общем количестве параметров Maverick использует 402 миллиарда против 671 миллиарда у Deepseek V3, а также поддерживает возможности обработки изображений.

«Стандартная» модель Maverick из Llama 4 в настоящее время занимает 32-е место в рейтинге LMarena, значительно отставая от самых эффективных моделей. Но результаты требуют контекста: даже более старые системы, такие как Qwen 2.5, оказываются выше широко используемых антропных моделей, таких как Sonnet 3.7 и 3.5. Различия в оценках между моделями часто незначительны.

LMArena показывает, насколько произвольными могут быть бенчмарки, когда они не привязаны к четко определенным задачам, и как легко ими можно манипулировать, как это видно на примере экспериментальной модели Maverick от Meta*, обсуждаемой ниже. В конечном счете, наиболее полезным бенчмарком является то, насколько хорошо модель выполняет задачи, которые вас интересуют, и обеспечивает ли она хороший баланс стоимости и производительности.

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник



Источник новости: habr.com

DimonVideo
2025-04-12T20:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика