OpenAI постепенно приглашает избранных пользователей протестировать совершенно новый набор моделей рассуждений под названием o3 и o3 mini, являющихся преемниками моделей o1 и o1-mini, полная версия которых была выпущена в начале этого месяца. Генеральный директор OpenAI Сэм Альтман заявил, что изначально модели будут доступны для тестирования только исследователям, чтобы оценить их безопасность и функциональность.
Альтман сообщил, что изначально две новые модели будут переданы избранным сторонним исследователям для тестирования безопасности , при этом выход o3-mini ожидается к концу января 2025 года, а o3 — вскоре после этого.
«Это начало нового этапа в развитии AI», — сказал Альтман. — «Мы видим потенциал этих моделей в решении сложных задач, требующих значительных рассуждений».
Анонс был сделан всего через день после того, как Google представила и позволила публике использовать свою новую модель Gemini 2.0 Flash Thinking — еще одну конкурирующую модель «рассуждений», которая, в отличие от серии OpenAI o1, позволяет пользователям видеть шаги в ее «мыслительном» процессе, задокументированные в текстовых маркерах.
Модель o3 уже продемонстрировала выдающиеся результаты в тестах производительности. Например, она превзошла предшественника o1 на 22,8 процентных пункта в кодировании. Кроме того, o3 набирает 96,7% на экзамене AIME 2024, пропустив всего один вопрос, и набирает 87,7% на экзамене GPQA Diamond, что значительно превышает результаты экспертов-людей.
А также, модель устанавливает новые рекорды на сложных тестах, таких как EpochAI's Frontier Math, решая 25,2% задач, где ни одна другая модель не превзошла 2%. На тесте ARC-AGI o3 утроил результат o1 и превзошел 85% ,что было подтверждено вживую командой ARC Prize и стало важной вехой в концептуальном мышлении.
OpenAI также уделяет большое внимание безопасности и согласованности своих моделей. Новый метод сознательного выравнивания позволяет моделям рассуждать о политике безопасности, что снижает риск уязвимостей и улучшает соответствие рекомендациям по содержанию.
Для получения раннего доступа к o3 и o3-mini исследователям необходимо подать заявку на сайте OpenAI до 10 января 2025 года. OpenAI призывает исследователей разрабатывать надежные оценки и тестировать модели в уникальных сценариях.
Появление данных знаменует собой значительный шаг вперед в области искусственного интеллекта. Эти модели демонстрируют стремительный прогресс и приглашают исследовательское сообщество к сотрудничеству для ответственного использования их возможностей.
Источник
Источник новости: habr.com