Поскольку традиционные методы тестирования ИИ оказываются неэффективными, разработчики ИИ прибегают к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft.
Веб-сайт Minecraft Benchmark (или MC-Bench) был разработан совместно с целью сравнить модели ИИ друг с другом в прямых соревнованиях по созданию творений Minecraft. Пользователи могут проголосовать за то, какая модель справилась лучше, и только после голосования они смогут увидеть, какой ИИ создал каждое творение Minecraft.
Для Ади Сингха, 12-классника, запустившего MC-Bench, ценность Minecraft заключается не столько в самой игре, сколько в том, насколько хорошо люди с ней знакомы — в конце концов, это самая продаваемая видеоигра всех времён. Даже люди, которые не играли в эту игру, всё равно могут оценить, какое блочное изображение ананаса лучше.
«Minecraft позволяет людям гораздо легче следить за прогрессом в разработке ИИ, — сказал Сингх в интервью TechCrunch. — Люди привыкли к Minecraft, привыкли к его внешнему виду и атмосфере».
В настоящее время MC-Bench насчитывает восемь человек в качестве волонтёров-разработчиков. Согласно веб-сайту MC-Bench, Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска бенчмарков, но в остальном эти компании не связаны с проектом.
Другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ, отчасти потому, что искусство тестирования ИИ известно своей сложностью.
Исследователи часто тестируют модели ИИ с помощью стандартизированных оценок, но многие из этих тестов дают ИИ преимущество «на своей территории». Из-за того, как они обучаются, модели от природы хорошо справляются с определёнными узкими задачами по решению проблем, особенно с задачами, требующими механического запоминания или базовой экстраполяции.
Проще говоря, трудно понять, что означает тот факт, что GPT-4 от OpenAI может набрать 88 баллов по LSAT, но не может определить, сколько букв «р» в слове «клубника». Claude 3.7 Sonnet от Anthropic достиг 62,3% точности в стандартизированном тесте на разработку программного обеспечения, но играет в покемонов хуже, чем большинство пятилетних детей.
MC-Bench технически является бенчмарком для программирования, поскольку моделям предлагается написать код для создания предложенной сборки, например «Снеговик Фрости» или «очаровательная тропическая пляжная хижина на нетронутом песчаном берегу».
Но большинству пользователей MC-Bench проще оценить, какой снеговик выглядит лучше, чем копаться в коде, что делает проект более привлекательным и, следовательно, позволяет собирать больше данных о том, какие модели стабильно показывают лучшие результаты.
Конечно, вопрос о том, насколько эти показатели отражают полезность ИИ, остаётся открытым. Однако Сингх утверждает, что это серьёзный сигнал.
«Текущая таблица лидеров довольно точно отражает мой собственный опыт использования этих моделей, в отличие от многих тестов, основанных на чистом тексте, — сказал Сингх. — Возможно, MC-Bench может быть полезен компаниям, чтобы понять, в правильном ли направлении они движутся».
Источник
Источник новости: habr.com