категории | RSS

Дебаты по поводу бенчмаркинга ИИ достигли Pokémon

Даже покемоны не защищены от споров о бенчмаркинге искусственного интеллекта. На прошлой неделе пост на X стал вирусным. В нём утверждалось, что последняя модель Google Gemini превзошла флагманскую модель Claude от Anthropic в оригинальной трилогии видеоигр Pokémon. Сообщается, что Gemini достиг Лавандового города на стриме разработчика на Twitch, а Claude застрял на горе Мун в конце февраля.

Но о чём не упомянули, так это о том, что у Gemini было преимущество.

Как отметили пользователи на Reddit, разработчик, который ведет трансляцию Gemini, создал пользовательскую мини-карту, которая помогает модели распознавать «плитки» в игре, например, деревья, которые можно срубить. Это снижает потребность Gemini в анализе скриншотов перед принятием игровых решений.

Сейчас Pokémon — это в лучшем случае полусерьёзный тест ИИ. Мало кто станет спорить, что это очень информативный тест возможностей модели. Но это поучительный пример того, как разные реализации теста могут влиять на результаты.

Например, компания Anthropic сообщила о двух результатах своей недавней модели Anthropic 3.7 Sonnet на эталонном тесте SWE-bench Verified, который предназначен для оценки способности модели к кодированию. Модель Claude 3.7 Sonnet показала точность 62,3% на SWE-bench Verified, но 70,3% с «пользовательской структурой», разработанной компанией Anthropic.

Совсем недавно Meta* доработала версию одной из своих новых моделей, Llama 4 Maverick, чтобы она хорошо справлялась с конкретным тестом LM Arena. Обычная версия модели показывает значительно худшие результаты в том же тесте.

Учитывая, что тесты ИИ, в том числе с участием покемонов, изначально являются несовершенными мерилами, пользовательские и нестандартные реализации грозят ещё больше всё запутать. Иными словами, маловероятно, что сравнение моделей по мере их выпуска станет проще.

Источник



Источник новости: habr.com

DimonVideo
2025-04-15T10:50:01Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика