OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

Разное

16:50 19-01-2025

DimonVideo

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

Участие OpenAI в финансировании FrontierMath, ведущего AI-бенчмарка по математике, стало известно только тогда, когда компания объявила о рекордных показателях на этом тесте. Теперь разработчик бенчмарка, Epoch AI, признает, что следовало быть более прозрачными относительно их отношений.

FrontierMath, представленный в ноябре 2024 года, тестирует, насколько хорошо AI-системы могут справляться со сложными математическими задачами, требующими продвинутого рассуждения и навыков решения проблем — именно такие задачи обычно ставят в тупик даже самые продвинутые AI-системы. Проблемы для бенчмарка были созданы командой из более чем 60 ведущих математиков.

Связь между OpenAI и FrontierMath появилась 20 декабря, в тот же день, когда OpenAI представила свою новую модель o3. Система достигла беспрецедентного уровня успешности в 25,2 процента на сложных математических и логических задачах бенчмарка — это огромный скачок по сравнению с предыдущими моделями, которые не могли решить более двух процентов вопросов.

Epoch AI, разработавшая бенчмарк, подписала соглашение, запрещающее им раскрывать финансовую поддержку OpenAI до объявления о модели o3. Они признали связь в сноске после пятого обновления своей исследовательской работы, просто указав: "Мы с благодарностью признаем поддержку OpenAI в создании этого бенчмарка."OpenAI представила результаты FrontierMath o3 в своих маркетинговых материалах.

Согласно посту на LessWrong, более 60 математиков, участвовавших в создании задач для бенчмарка, не знали о вовлечении OpenAI — даже после объявления о модели o3. Хотя эти эксперты подписали соглашения о неразглашении, соглашения касались только сохранения конфиденциальности самих задач. Большинство считали, что их работа останется частной и будет использоваться исключительно Epoch AI, согласно посту.

Тамай Безироглу из Epoch AI признает, что они допустили ошибки. "Мы должны были настойчивее добиваться возможности быть прозрачными относительно этого партнерства с самого начала, особенно с математиками, создающими задачи",- пишет он.

По словам Безироглу, OpenAI получил доступ к многим математическим задачам и решениям до объявления о o3. Однако Epoch AI сохранила отдельный набор задач в секрете, чтобы обеспечить возможность независимого тестирования.

Они также заключили устное соглашение с OpenAI, запрещающее компании использовать материалы для обучения своих моделей — это мера предосторожности, чтобы предотвратить манипулирование бенчмарком и не допустить публичного распространения задач.

"В будущих сотрудничествах мы будем стремиться улучшить прозрачность там, где это возможно, обеспечивая участникам более четкую информацию об источниках финансирования, доступе к данным и целях использования с самого начала",- пишет Безироглу.

Хотя недостаток прозрачности сам по себе не подрывает качество или значимость бенчмарка, такой важный инструмент для оценки AI заслуживал полной открытости с самого начала, особенно учитывая, что математическое обоснование является серьезным слабым местом языковых моделей, а улучшенная логическая производительность может сигнализировать о прорыве.

"Я считаю, что OpenAI достоверно отчитывался об этом, но Epoch не может гарантировать это, пока мы не оценим модель самостоятельно, используя отложенный набор данных, который мы разрабатываем",- пишет главный математик Epoch AI Эллиот Глейзер.

Ситуация подчеркивает, насколько сложными стали процессы бенчмаркинга AI — создание таких бенчмарков — затратная и сложная работа. Хотя результаты тестов могут быть трудно переводимы в реальные показатели производительности и сильно зависят от методов тестирования и оптимизации моделей, те же результаты играют ключевую роль в привлечении внимания и инвестиций.

Источник

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

Разное

Похожие файлы

Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки

Инженеры Apple раскрыли ошибки в математических рассуждениях ИИ

Компания Сэма Альтмана Worldcoin, занимающаяся криптовалютами, провела ребрендинг

Microsoft представила новую ИИ-модель Phi-4 с 14 миллиардами параметров