В прошлом месяце основатели и инвесторы в области AI сообщили, что мы вступили во вторую эру законов масштабирования, отмечая, что устоявшиеся методы улучшения моделей AI показывают уменьшение отдачи. Один из перспективных новых методов, который, как они предполагают, может сохранить достижения, — это масштабирование во время тестирования, что, по-видимому, лежит в основе производительности модели OpenAI o3, но у этого есть свои недостатки.
Большая часть мира AI восприняла анонс модели OpenAI o3 как доказательство того, что прогресс в масштабировании AI не "уперся в стену". Модель o3 показывает хорошие результаты в тестах, значительно превосходя все остальные модели в тесте общей способности ARC-AGI и набрав 25% на сложном математическом тесте, на котором ни одна другая модель AI не набрала более 2%.
Даже до выпуска o3 мир AI уже убежден, что произошло что-то значительное. Соавтор серии моделей o OpenAI, Ноам Браун, отметил в пятницу, что стартап объявляет о впечатляющих достижениях o3 всего через три месяца после объявления о o1 — относительно короткий срок для такого скачка в производительности.
"У нас есть все основания полагать, что эта траектория будет продолжаться", — написал Браун в твиттере.
Соучредитель Anthropic Джек Кларк написал в блоге в понедельник, что o3 является доказательством того, что прогресс в AI будет быстрее в 2025 году, чем в 2024 году. Имейте в виду, что это выгодно Anthropic — особенно его способности привлекать капитал — предполагать, что законы масштабирования AI продолжаются, даже если Кларк делает комплимент конкуренту.
В следующем году, по словам Кларка, мир AI объединит методы масштабирования во время тестирования и традиционные методы масштабирования предварительной подготовки, чтобы извлечь еще больше отдачи из моделей AI. Возможно, он намекает, что Anthropic и другие поставщики моделей ИИ выпустят собственные модели рассуждений в 2025 году, как это сделала Google на прошлой неделе.
Масштабирование во время тестирования означает, что OpenAI использует больше вычислительных мощностей во время фазы вывода ChatGPT, периода времени после нажатия вами на ввод в запросе. Неясно, что именно происходит за кулисами: OpenAI либо использует больше компьютерных чипов для ответа на вопрос пользователя, либо запускает более мощные чипы вывода, либо запускает эти чипы в течение более длительных периодов времени — от 10 до 15 минут в некоторых случаях — прежде чем AI выдаст ответ. Мы не знаем всех деталей о том, как была создана o3, но эти бенчмарки являются ранними признаками того, что масштабирование во время тестирования может работать для улучшения производительности моделей AI.
Хотя o3 может дать некоторым новую веру в прогресс законов масштабирования AI, новейшая модель OpenAI также использует ранее невиданный уровень вычислительных мощностей, что означает более высокую цену за ответ."Возможно, единственное важное предостережение здесь заключается в понимании того, что одна из причин, почему O3 настолько лучше, заключается в том, что она стоит больше денег для запуска во время вывода — возможность использовать вычислительные ресурсы во время тестирования означает, что по некоторым проблемам вы можете преобразовать вычислительные ресурсы в более лучший ответ", — пишет Кларк в своем блоге.
"Это интересно, потому что это сделало затраты на запуск систем AI несколько менее предсказуемыми — ранее, вы могли бы рассчитать, сколько стоит обслужить генеративную модель, просто взглянув на модель и стоимость генерации данного вывода."
Кларк и другие указали на производительность o3 на бенчмарке ARC-AGI — сложном тесте, используемом для оценки прорывов в области AGI — как на показатель его прогресса. Стоит отметить, что прохождение этого теста, по словам его создателей, не означает, что модель ИИ достигла AGI, а скорее это один из способов измерить прогресс к неопределенной цели. Тем не менее, модель o3 превзошла все предыдущие модели AI, которые проходили этот тест, набрав 88% в одной из попыток. Лучшая модель AI OpenAI, o1, набрала всего 32%.
Но логарифмическая ось x на этом графике может вызвать тревогу у некоторых. Высоко оцениваемая версия o3 использовала более $1,000 вычислительных ресурсов для каждой задачи. Модели o1 использовали около $5 вычислительных ресурсов на задачу, а o1-mini использовала всего несколько центов.
Создатель бенчмарка ARC-AGI, Франсуа Шолле, пишет в блоге, что OpenAI использовала примерно в 170 раз больше вычислительных ресурсов, чтобы получить этот 88% результат, по сравнению с высокоэффективной версией o3, которая набрала всего на 12% меньше. Высоко оцениваемая версия o3 использовала более $10,000 ресурсов для завершения теста, что делает её слишком дорогой для соревнования за Приз ARC — не побежденное соревнование для моделей AI, чтобы победить в тесте ARC.
Однако, Шолле говорит, что o3 всё же является прорывом для моделей AI."o3 — это система, способная адаптироваться к задачам, с которыми она никогда не сталкивалась ранее, возможно, приближаясь к человеческому уровню производительности в области ARC-AGI", — пишет Шолле в блоге.
"Конечно, такая общая способность имеет высокую цену и пока не будет экономичной: вы могли бы платить человеку за решение задач ARC-AGI примерно $5 за задачу, потребляя при этом всего несколько центов на энергию."
Пока преждевременно зацикливаться на точной цене всего этого — мы видели, как цены на модели ИИ резко упали за последний год, и OpenAI еще не объявила, сколько будет стоить o3. Однако, эти цены показывают, сколько вычислительных ресурсов требуется, чтобы даже немного преодолеть барьеры производительности, установленные ведущими моделями AI сегодня.
Это поднимает несколько вопросов. Для чего на самом деле предназначена o3? И сколько еще вычислительных ресурсов потребуется, чтобы сделать больше достижений в области вывода с o4, o5 или как бы OpenAI ни называла свои следующие модели рассуждений?
Кажется, что o3 или её последователи не будут использоваться в повседневной жизни, как GPT-4o или Поиск Google. Эти модели просто используют слишком много вычислительных ресурсов, чтобы ответить на небольшие вопросы в течение вашего дня, такие как "Как Кливленд Браунс всё ещё могут попасть в плей-офф 2024 года?"
Вместо этого кажется, что модели AI с масштабированием во время тестирования могут быть полезны только для глобальных запросов, таких как "Как Кливленд Браунс могут стать франшизой Суперкубка в 2027 году?" Даже тогда, возможно, это стоит высоких затрат на вычисления, только если вы генеральный менеджер Кливленд Браунс и используете эти инструменты для принятия важных решений.
Учреждения с глубокими карманами могут быть единственными, кто сможет позволить себе o3, по крайней мере вначале, как отмечает в своем твите профессор Уортонской школы Итан Моллик.
Мы уже видели, как OpenAI выпустила уровень за $200 для использования версии o1 с высокими вычислительными мощностями, но стартап, по сообщениям, рассматривал возможность создания планов подписки стоимостью до $2,000. Когда вы видите, сколько вычислительных ресурсов использует o3, вы понимаете, почему OpenAI может это рассматривать.
Но есть недостатки использования o3 для работы с высоким воздействием. Как отмечает Шолле, o3 не является AGI и всё ещё терпит неудачи в некоторых очень простых задачах, которые человек сделал бы довольно легко.
Это не обязательно удивительно, поскольку большие языковые модели всё ещё имеют огромную проблему галлюцинаций, которую o3 и масштабирование во время тестирования, по-видимому, не решили. Вот почему ChatGPT и Gemini включают отказ от ответственности под каждым ответом, который они производят, прося пользователей не доверять ответам на слово. Предположительно, AGI, если она когда-либо будет достигнута, не потребует такого отказа.
Источник
Источник новости: habr.com