Компания Anthropic использовала Pokémon для тестирования своей новейшей модели искусственного интеллекта.
В сообщении блога, опубликованном в понедельник, компания Anthropic сообщила, что протестировала свою последнюю модель Claude 3.7 Sonnet на классической версии Game Boy Pokémon Red. Компания оснастила модель базовой памятью, возможностью ввода пикселей на экране и вызовами функций для нажатия кнопок и перемещения по экрану, что позволяет играть в Pokémon непрерывно.
Уникальной особенностью Claude 3.7 Sonnet является его способность к «расширенному мышлению». Как и o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может «рассуждать» о сложных задачах, применяя больше вычислений и тратя больше времени.
По-видимому, это пригодилось в Pokémon Red.
В отличие от предыдущей версии, Claude 3.7 Sonnet успешно преодолел испытания и победил трёх лидеров спортзалов покемонов, получив их значки.
Теперь неясно, сколько вычислений потребовалось модели Claude 3.7 Sonnet, чтобы достичь этих результатов, и сколько времени это заняло. Компания Anthropic сообщила только, что модель выполнила 35 000 действий, чтобы достичь последнего уровня, Surge.
Наверняка пройдет совсем немного времени, прежде чем какой-нибудь предприимчивый разработчик узнает об этом.
Pokémon Red — это скорее игрушка, чем что-то серьёзное. Однако существует долгая история использования игр для тестирования ИИ. Только за последние несколько месяцев появилось несколько новых приложений и платформ для тестирования игровых способностей моделей в играх от Street Fighter до Pictionary.
Источник
Источник новости: habr.com