категории | RSS

Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, в понедельник объявил в блоге, что создал новый сложный тест для измерения общего интеллекта ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей.

Модели ИИ, основанные на «рассуждении», такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1% до 1,3% баллов в ARC‑AGI-2, согласно рейтингу Arc Prize. Мощные модели, не основанные на «рассуждении», такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.

Тесты ARC‑AGI состоят из задач, похожих на головоломки, в которых ИИ должен распознавать визуальные паттерны в наборе квадратов разных цветов и генерировать правильную «ответную» сетку. Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым задачам, с которыми он раньше не сталкивался.

Фонд Arc Prize попросил более 400 человек пройти тест ARC‑AGI-2, чтобы установить базовый уровень для людей. В среднем «группы» этих людей правильно ответили на 60% вопросов теста — намного лучше, чем у любой из моделей.Пример вопроса из Arc‑AGI-2.

В посте на X Шолле заявил, что ARC‑AGI-2 лучше измеряет реальный интеллект модели ИИ, чем первая версия теста, ARC‑AGI-1. Тесты Фонда Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки, выходящие за рамки данных, на которых она обучалась.

Шолле сказал, что, в отличие от ARC‑AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — большие вычислительные мощности — для поиска решений. Ранее Шолле признавал, что это был серьёзный недостаток ARC‑AGI-1.

Чтобы устранить недостатки первого теста, в ARC‑AGI-2 вводится новая метрика: эффективность. Она также требует, чтобы модели интерпретировали закономерности на лету, а не полагались на запоминание.

«Интеллект определяется не только способностью решать задачи или набирать высокие баллы, — написал соучредитель Arc Prize Foundation Грег Камрадт в посте в блоге. — Эффективность, с которой эти способности приобретаются и используются, является важнейшим определяющим компонентом. Основной вопрос, который задаётся, заключается не только в том, „может ли ИИ приобрести навык для решения задачи?“, но и в том, „с какой эффективностью или затратами?“»

ARC‑AGI-1 оставался непобедимым в течение примерно пяти лет, до декабря 2024 года, когда компания OpenAI выпустила свою продвинутую модель логического мышления o3, которая превзошла все остальные модели ИИ и сравнялась с человеком по результатам тестирования. Однако, как отметили в то время, повышение производительности o3 по сравнению с ARC‑AGI-1 сопровождалось высокой ценой.

Версия модели o3 от OpenAI — o3 (low), которая первой достигла новых высот на ARC‑AGI-1, набрав 75,7% баллов в тесте, на ARC‑AGI-2 набрала жалкие 4% баллов, используя вычислительные мощности стоимостью 200 долларов за задачу.Сравнение производительности модели Frontier AI на ARC‑AGI-1 и ARC‑AGI-2.

Появление ARC‑AGI-2 происходит в то время, когда многие представители технологической отрасли призывают к созданию новых несыгранных эталонов для измерения прогресса в области ИИ. Соучредитель Hugging Face Томас Вольф недавно рассказал TechCrunch, что в индустрии ИИ не хватает тестов для измерения ключевых характеристик так называемого AGI, включая креативность.

Наряду с новым эталоном Arc Prize Foundation объявил о конкурсе Arc Prize 2025, в рамках которого разработчики должны достичь 85-процентной точности в тесте ARC‑AGI-2, потратив всего 0,42 доллара на задачу.

Источник



Источник новости: habr.com

DimonVideo
2025-03-25T10:50:01Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика