категории | RSS

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

Участие OpenAI в финансировании FrontierMath, ведущего AI-бенчмарка по математике, стало известно только тогда, когда компания объявила о рекордных показателях на этом тесте. Теперь разработчик бенчмарка, Epoch AI, признает, что следовало быть более прозрачными относительно их отношений.

FrontierMath, представленный в ноябре 2024 года, тестирует, насколько хорошо AI-системы могут справляться со сложными математическими задачами, требующими продвинутого рассуждения и навыков решения проблем — именно такие задачи обычно ставят в тупик даже самые продвинутые AI-системы. Проблемы для бенчмарка были созданы командой из более чем 60 ведущих математиков.

Связь между OpenAI и FrontierMath появилась 20 декабря, в тот же день, когда OpenAI представила свою новую модель o3. Система достигла беспрецедентного уровня успешности в 25,2 процента на сложных математических и логических задачах бенчмарка — это огромный скачок по сравнению с предыдущими моделями, которые не могли решить более двух процентов вопросов.

Epoch AI, разработавшая бенчмарк, подписала соглашение, запрещающее им раскрывать финансовую поддержку OpenAI до объявления о модели o3. Они признали связь в сноске после пятого обновления своей исследовательской работы, просто указав: "Мы с благодарностью признаем поддержку OpenAI в создании этого бенчмарка."OpenAI представила результаты FrontierMath o3 в своих маркетинговых материалах.

Согласно посту на LessWrong, более 60 математиков, участвовавших в создании задач для бенчмарка, не знали о вовлечении OpenAI — даже после объявления о модели o3. Хотя эти эксперты подписали соглашения о неразглашении, соглашения касались только сохранения конфиденциальности самих задач. Большинство считали, что их работа останется частной и будет использоваться исключительно Epoch AI, согласно посту.

Тамай Безироглу из Epoch AI признает, что они допустили ошибки. "Мы должны были настойчивее добиваться возможности быть прозрачными относительно этого партнерства с самого начала, особенно с математиками, создающими задачи",- пишет он.

По словам Безироглу, OpenAI получил доступ к многим математическим задачам и решениям до объявления о o3. Однако Epoch AI сохранила отдельный набор задач в секрете, чтобы обеспечить возможность независимого тестирования.

Они также заключили устное соглашение с OpenAI, запрещающее компании использовать материалы для обучения своих моделей — это мера предосторожности, чтобы предотвратить манипулирование бенчмарком и не допустить публичного распространения задач.

"В будущих сотрудничествах мы будем стремиться улучшить прозрачность там, где это возможно, обеспечивая участникам более четкую информацию об источниках финансирования, доступе к данным и целях использования с самого начала",- пишет Безироглу.

Хотя недостаток прозрачности сам по себе не подрывает качество или значимость бенчмарка, такой важный инструмент для оценки AI заслуживал полной открытости с самого начала, особенно учитывая, что математическое обоснование является серьезным слабым местом языковых моделей, а улучшенная логическая производительность может сигнализировать о прорыве.

"Я считаю, что OpenAI достоверно отчитывался об этом, но Epoch не может гарантировать это, пока мы не оценим модель самостоятельно, используя отложенный набор данных, который мы разрабатываем",- пишет главный математик Epoch AI Эллиот Глейзер.

Ситуация подчеркивает, насколько сложными стали процессы бенчмаркинга AI — создание таких бенчмарков — затратная и сложная работа. Хотя результаты тестов могут быть трудно переводимы в реальные показатели производительности и сильно зависят от методов тестирования и оптимизации моделей, те же результаты играют ключевую роль в привлечении внимания и инвестиций.

Источник



Источник новости: habr.com

DimonVideo
2025-01-19T16:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика