категории | RSS

Фонд Arc Prize представил новый AGI-тест, который ставит в тупик большинство ИИ-моделей

Фонд Arc Prize, некоммерческая организация, сооснованная видным исследователем ИИ Франсуа Шолле, объявил в блоге в понедельник о создании нового, сложного теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Пока что новый тест, получивший название ARC-AGI-2, оказался непосильным для большинства моделей.

По данным таблицы лидеров Arc Prize, модели с акцентом на логическое мышление, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1% до 1,3% на ARC-AGI-2. Мощные, но не специализированные на рассуждениях модели — включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — показывают результат около 1%.

Тесты ARC-AGI состоят из задач, напоминающих головоломки, где ИИ должен выявлять визуальные закономерности в массивах разноцветных квадратов и на их основе генерировать правильную сетку-ответ. Эти задачи созданы так, чтобы вынуждать ИИ адаптироваться к новым, незнакомым ситуациям.

Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей.Пример одного из вопросов теста

В публикации на X Шолле утверждает, что ARC-AGI-2 является более точным показателем подлинного интеллекта ИИ-моделей, чем первая версия теста — ARC-AGI-1. Тесты фонда Arc Prize направлены на оценку способности ИИ к эффективному освоению новых навыков вне рамок обучающих данных.

По словам Шолле, в отличие от ARC-AGI-1, новая версия теста исключает возможность нахождения решений с помощью «грубой силы» — чрезмерных вычислительных ресурсов. Он ранее признавал это слабым местом первой версии.

В качестве ответа на эти недостатки ARC-AGI-2 вводит новую метрику — эффективность. Моделям также необходимо интерпретировать закономерности на лету, без опоры на запоминание.

«Интеллект — это не только умение решать задачи или набирать высокие баллы, — написал в блоге сооснователь фонда Грег Камрат. — Эффективность, с которой приобретаются и применяются эти способности, — важнейшая, определяющая составляющая. Ключевой вопрос — не просто “может ли ИИ освоить навык для выполнения задачи?”, но и “с какой эффективностью и по какой цене?”»

ARC-AGI-1 оставался непреодолённым около пяти лет, пока в декабре 2024 года OpenAI не представила модель расширенного рассуждения o3, превзошедшую всех конкурентов и сравнявшуюся по результатам с человеческим уровнем. Однако, как отмечалось тогда, успехи o3 на ARC-AGI-1 сопровождались значительными затратами.

Версия модели o3 от OpenAI — o3 (low), первой достигшая рекорда с результатом 75,7% в ARC-AGI-1, смогла набрать всего 4% на ARC-AGI-2, затрачивая при этом по 200 долларов вычислительных ресурсов на каждое задание.СРАВНЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ МОДЕЛИ FRONTIER AI НА ARC-AGI-1 И ARC-AGI-2

Появление ARC-AGI-2 совпало с растущими в индустрии технологиями призывами к созданию новых, «неперенасыщенных» тестов для оценки прогресса ИИ. Сооснователь Hugging Face Томас Вольф недавно заявил TechCrunch, что отрасли не хватает инструментов для измерения ключевых характеристик так называемого общего искусственного интеллекта, включая креативность.

Одновременно с новым тестом фонд Arc Prize объявил о запуске конкурса Arc Prize 2025, в рамках которого разработчикам предстоит добиться 85% точности в ARC-AGI-2 при затратах не более $0.42 на каждое задание.

Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.



Источник новости: habr.com

DimonVideo
2025-03-25T14:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика