Epoch AI представила новый математический бенчмарк FrontierMath, который ставит в тупик современные ИИ-модели. По данным исследовательской организации, бенчмарк включает сотни сложных математических задач, которые топовые ИИ-модели, включая GPT-4o и Claude 3.5 Sonnet, решают менее чем в 2% случаев. Эти задачи, которые обычно требуют от математиков нескольких часов или дней, охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.
Что отличает FrontierMath от существующих бенчмарков, так это его конструкция: набор задач остается неопубликованным, чтобы избежать загрязнения данных, обеспечивая, что ИИ действительно сталкивается с трудностями, а не полагается на уже существующие наборы данных. Хотя ИИ-модели хорошо справляются с более простыми бенчмарками, такими как GSM8K, они с трудом решают более сложные задачи FrontierMath.
Разработанный с участием более 60 математиков и рецензируемый лауреатами Филдсовской премии, FrontierMath предлагает решения, которые могут быть проверены вычислениями, требующими сложных алгоритмов или больших числовых ответов.
Epoch AI планирует расширять бенчмарк и в будущем выпускать новые задачи для дальнейших испытаний и проверки пределов возможностей ИИ в математике.
Источник новости: www.ferra.ru