Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Разное

10:50 07-04-2025

DimonVideo

Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Одна из новых флагманских моделей ИИ, выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.

Как несколько исследователей искусственного интеллекта отметили в X, Meta в своём объявлении указала, что Maverick на LM Arena — это «экспериментальная версия чата». На официальном сайте Llama, тем временем, указано, что тестирование LM Arena от Meta проводилось с использованием «Llama 4 Maverick, оптимизированного для общения».

Как уже писали ранее, по разным причинам LM Arena никогда не была самым надёжным показателем эффективности модели ИИ. Но компании, занимающиеся ИИ, как правило, не настраивали свои модели так, чтобы они лучше справлялись с LM Arena, — по крайней мере, они этого не признавали.

Проблема с адаптацией модели к эталонному тесту, её сокрытием, а затем выпуском «ванильного» варианта той же модели заключается в том, что разработчикам сложно предсказать, насколько хорошо модель будет работать в конкретных условиях. Это также вводит в заблуждение. В идеале эталонный тест, каким бы несовершенным он ни был, даёт представление о сильных и слабых сторонах одной модели в целом ряде задач.

Действительно, исследователи из X заметили значительные различия в поведении общедоступной версии Maverick по сравнению с моделью, размещённой на LM Arena. В версии LM Arena, похоже, используется много эмодзи, и ответы даются невероятно пространные.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Разное

Похожие файлы

Базовая модель AI Maverick от Meta* уступает конкурентам в популярном бенчмарке

Педро Паскаль рассказал о различиях между Джоэлом из сериала из The Last of Us и Дином Джарином из "Мандалорца"

Llama 4 Maverick и Scout: результаты тестирования моделей Meta*

Различия в генерации вопросов между людьми и AI: результаты исследования

Не знаю - 11 (9%)

16 - 7 (5%)

15 - 41 (34%)

14 - 17 (14%)

13 - 17 (14%)

12 - 4 (3%)

11 - 4 (3%)

10 - 6 (5%)

9 - 1 (0%)

8 - 1 (0%)

7 и ниже - 2 (1%)

А у меня айфон! - 6 (5%)

Иное - 1 (0%)

Не знаю - 11 (9%)

16 - 7 (5%)

15 - 41 (34%)

14 - 17 (14%)

13 - 17 (14%)

12 - 4 (3%)

11 - 4 (3%)

10 - 6 (5%)

9 - 1 (0%)

8 - 1 (0%)

7 и ниже - 2 (1%)

А у меня айфон! - 6 (5%)

Иное - 1 (0%)