Когда компания выпускает новый видеогенератор с искусственным интеллектом, нередко кто-то использует его для создания видео, где актер Уилл Смит ест спагетти. Это стало своеобразным мемом и тестом: проверить, насколько реалистично новый генератор может изобразить Смита, поглощающего тарелку лапши. Даже сам Смит пошутил над этим трендом в Instagram* в феврале.
Уилл Смит и паста — лишь один из нескольких необычных "неофициальных" тестов, которые будут популярны в AI-сообществе в 2024 году. Например, 16-летний разработчик создал приложение, позволяющее AI управлять Minecraft и проверять его способность проектировать структуры. В другом случае британский программист создал платформу, где AI играет в игры, такие как Pictionary и Connect 4, друг против друга.
Не то чтобы не было других академических тестов на производительность AI. Так почему же провалились самые странные из них?
Во-первых, многие стандартные тесты AI не всегда понятны широкой публике. Компании часто говорят о способности AI решать сложные математические задачи или задачи уровня PhD. Однако большинство людей, используют чат-ботов для более простых задач, таких как ответы на электронные письма и базовые исследования.
Отраслевые показатели, основанные на краудсорсинге, тоже не всегда лучше.
Например, Chatbot Arena — публичный бенчмарк, популярный среди энтузиастов AI. Он позволяет пользователям оценивать AI в выполнении задач, таких как создание веб-приложений. Однако участники голосования часто представляют круги AI и IT-индустрии и оценивают результаты на основе личных предпочтений.
Итан Моллик, профессор из Wharton, отметил, что многие тесты AI не сравнивают возможности AI с возможностями обычных людей.
"Отсутствие разнообразных критериев в медицине, юриспруденции и других сферах досадно, поскольку люди используют AI для этих целей", — написал Моллик.
Необычные тесты AI, такие как Connect 4 или видео с Уиллом Смитом, не являются научными. Успех AI в одном тесте не гарантирует успеха в других задачах.
Один эксперт предложил сосредоточиться на влиянии AI, а не на его отдельных возможностях. Это разумно, но странные тесты, вероятно, останутся популярными. Они не только развлекают — кто не любит смотреть, как AI строит замки в Minecraft? — но и легко понятны. Как отметил Макс Зефф, индустрия продолжает искать способы сделать AI более доступным для широкой аудитории. Вопрос лишь в том, какие новые необычные тесты станут вирусными в 2025 году.
Источник
Источник новости: habr.com