категории | RSS

«GPT-4.5 доказывает возможность продолжения парадигмы масштабирования», — главный научный сотрудник OpenAI

OpenAI представила свою самую большую языковую модель на сегодняшний день. По словам Марка Чена, главного научного сотрудника OpenAI, GPT 4.5 показывает, что масштабирование моделей AI еще не достигло своих пределов.

OpenAI анонсировала свою последнюю языковую модель GPT 4.5 в четверг, описав ее как свою самую большую и самую мощную модель чата на сегодняшний день. Компания планирует сначала развернуть ее для пользователей Pro, а затем для пользователей Plus, Enterprise, Team и Edu в ближайшие недели.

Для Чена GPT 4.5 служит ответом критикам, сомневающимся в том, что исследовательские лаборатории могут продолжать добиваться прогресса, создавая более крупные модели.

«GPT 4.5 действительно является доказательством того, что мы можем продолжать парадигму масштабирования», — объяснил Чен в разговоре. «Это точка, которая лежит на следующем порядке величины».

На вопрос, почему новая модель не получила название GPT-5, Чен пояснил, что OpenAI пытается следовать узнаваемым шаблонам в наименованиях. С предсказуемым масштабированием — например, переходом от GPT-3 к 3.5 — они могут прогнозировать, какие улучшения дадут на порядок большие вычислительные мощности и повышение эффективности. Новая модель соответствует тому, чего можно было бы ожидать от GPT 4.5.

Чен подчеркнул, что OpenAI теперь может масштабироваться по двум разным осям. «GPT 4.5 — это наш последний эксперимент по масштабированию по оси неконтролируемого обучения, но есть еще и рассуждения», — сказал он.

Чен объясняет более длительное время разработки между GPT-4 и 4.5 сильным акцентом компании на разработке парадигмы рассуждений.

Эти два подхода дополняют друг друга: «Вам нужны знания, чтобы построить рассуждения поверх. Модель не может пойти вслепую и просто изучить рассуждения с нуля», — объяснил Чен. Две парадигмы усиливают друг друга и формируют циклы обратной связи.

Чэнь отметил, что GPT 4.5 «интеллектуальна» в ином смысле, чем модели рассуждений. Она обладает значительно большим объемом знаний о мире. По сравнению с GPT-4o пользователи предпочли новую модель для повседневных случаев использования в размере 60%. Для производительной и интеллектуальной работы этот показатель возрастает почти до 70%.

По вопросу возможных ограничений масштабирования Чен был ясен: «Мы видим те же результаты. GPT 4.5 — это следующий шаг в этой парадигме неконтролируемого обучения». Он объяснил, что OpenAI очень строг в своем подходе, создавая прогнозы на основе всех ранее обученных моделей, чтобы определить, какую производительность ожидать.

Помимо традиционных бенчмарков, где GPT 4.5 показывает схожие улучшения с переходом от GPT-3.5 к GPT-4 по данным OpenAI, Чен сказал, что модель имеет новые возможности. Он привел в пример способность создавать ASCII-арт — задачу, с которой предыдущие модели обычно не справлялись.

Чен также опроверг сообщения о том, что разработка GPT 4.5 была особенно сложной. «Разработка всех наших базовых моделей является экспериментальной. Часто это означает остановку в определенных точках, анализ происходящего и повторный запуск прогонов», — пояснил он. Это не было характерно для GPT 4.5, но OpenAI также делала это с GPT-4 и O-серией.

Однако примечательно то, что значительно меньшая модель Claude 3.7 Sonnet превосходит модель GPT-4.5 от Anthropic во многих областях, которая также выглядит относительно устаревшей, учитывая, что данные были получены только в октябре 2023 года. Одна из причин этого, вероятно, кроется в данных для обучения, поскольку с 2023 года в области синтетических данных было достигнуто много успехов.

Источник



Источник новости: habr.com

DimonVideo
2025-03-01T00:50:06Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика