Новый математический бенчмарк FrontierMath поставил ИИ в тупик

Новости ПО

08:13 14-11-2024

DimonVideo

Новый математический бенчмарк FrontierMath поставил ИИ в тупик

Epoch AI представила новый математический бенчмарк FrontierMath, который ставит в тупик современные ИИ-модели. По данным исследовательской организации, бенчмарк включает сотни сложных математических задач, которые топовые ИИ-модели, включая GPT-4o и Claude 3.5 Sonnet, решают менее чем в 2% случаев. Эти задачи, которые обычно требуют от математиков нескольких часов или дней, охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.

Что отличает FrontierMath от существующих бенчмарков, так это его конструкция: набор задач остается неопубликованным, чтобы избежать загрязнения данных, обеспечивая, что ИИ действительно сталкивается с трудностями, а не полагается на уже существующие наборы данных. Хотя ИИ-модели хорошо справляются с более простыми бенчмарками, такими как GSM8K, они с трудом решают более сложные задачи FrontierMath.

Разработанный с участием более 60 математиков и рецензируемый лауреатами Филдсовской премии, FrontierMath предлагает решения, которые могут быть проверены вычислениями, требующими сложных алгоритмов или больших числовых ответов.

Epoch AI планирует расширять бенчмарк и в будущем выпускать новые задачи для дальнейших испытаний и проверки пределов возможностей ИИ в математике.

Источник новости: www.ferra.ru

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Новый математический бенчмарк FrontierMath поставил ИИ в тупик

Новости ПО

Похожие файлы

Новый челлендж в TikTok поставил под угрозу жизнь подростков

Никакой деградации: в TikTok добавили ленту только с научными и математическими роликами

Вышел бенчмарк Cinebench 2024

Обновление Firefox Browser 118: Новый переводчик и завершение поддержки Firefox ESR 102