категории | RSS

Вышел GPT-4.5 от OpenAI [обновляется, UPD 3]

Всего пару недель назад я писал о том, что Сэм Альтман анонсировал скорый выпуск GPT-4.5. Буквально вчера появились первые слухи о том, что GPT-4.5 выйдет со дня на день. И вот, свершилось, официальный анонс только что был опубликован.

Официальный блог-пост: https://openai.com/index/introducing-gpt-4-5/Общая информация о модели

GPT-4.5 — крупнейшая модель от OpenAI, ориентированная на максимально широкое применение. Её ключевые особенности: более масштабное обучение, улучшенная «эмоциональная интуиция» и расширенное понимание человеческих запросов.

Модель получила дополнительные этапы дообучения и проверки безопасности, использующие методы, схожие с GPT-4: классическое SFT (supervised fine-tuning) и RLHF (обучение с подкреплением на человеческой обратной связи).

Разработчики подчёркивают, что новая версия сохраняет примерно те же границы риска, что и предыдущие крупные модели, но при этом расширяет сферу применения в задачах письма, программирования и решения практических вопросов.

GPT-4.5 сочетает традиционное масштабное обучение на неразмеченных данных и «chain-of-thought reasoning» — подход, при котором модель учится промежуточным шагам рассуждений. Повышенная «ассоциативная» способность модели способствует уменьшению галлюцинаций.

Расширенный набор данных включает публичные источники, проприетарные договорённости по поставке данных и специальные внутренние датасеты. Всё это проходит многоуровневую фильтрацию для повышения качества и удаления неприемлемого содержимого. Новые приёмы для элайнмента помогают улучшить ориентированность GPT-4.5 на реальные нужды пользователя, включая аккуратность ответов, способность мягко вести разговор и адекватно обрабатывать "эмоционально заряженные" запросы.Эмоциональный интеллект

Одна из ключевых особенностей новой модели - сильная заточка на эмоциональный интеллект и понимание настроения собеседника. GPT‑4.5 демонстрирует более высокий «эмоциональный интеллект» и знает, когда следует поощрять дальнейшее общение, а когда предоставлять пользователю подробную информацию.

Во всех типах запросов пользователи гораздо чаще отдавали предпочтение ответам от GPT-4.5, а не oтветам GPT-4o.Технические результаты

Окно контекста в GPT-4.5 128 тысяч токенов. Это сильно меньше чем максимум доступный на рынке (1M/2M токенов), но должно быть достаточно практически для всех типов задач, особенно с учетом того, что многие модели с длинными контекстами работают не очень хорошо, часто забывают "середину" контекста, и т.д.

Улучшена мультизадачность и навыки ведения диалога: GPT-4.5 лучше справляется с письменными и креативными задачами, достигая более плавной интеграции идей. В бенчмарках на безопасность (умение избегать токсичных ответов, не нарушать политику) результаты близки к GPT-4, иногда превосходят его.

На тестах многоязычного MMLU GPT-4.5 показывает небольшой рост точности в сравнении с GPT-4. Улучшения наиболее заметны в языках с меньшими датасетами (хинди, бенгальский и т. д.).

GPT-4.5 показывает более низкий уровень галлюцинаций и ошибочных утверждений, что подтверждают тесты:

SimpleQA: точность ответов выросла с 38% до 62% (GPT-4o).

PersonQA: точность ответов выросла с 28% (GPT-4o) до 78% (GPT-4.5).

Меньший уровень галлюцинаций: показатель снизился с 52% до 19% в сравнении с предыдущими моделями.

Оценка METR направлена на определение задач, которые могут надежно выполняться агентами LLM. Их новая методология рассчитывает "оценку временного горизонта", определяемую как продолжительность задач, которые агент LLM способен выполнить с надежностью 50%. Для GPT-4.5 этот показатель составляет примерно 30 минут. Дополнительные детали будут представлены в предстоящей публикации METR.

В SWE-Bench - бенчмарке оценивающем, насколько модель способна справляться с широким кругом задач разработки, GPT-4.5 до смягчения оценивается в 35%, а GPT-4.5 после смягчения оценивается в 38% в этой оценке, что на 2–7% выше, чем GPT-4o, и на 30% ниже, чем Deep Research.

В бенчмарке агентских задач GPT-4.5 набирает 40% баллов, что на 38 п.п. ниже, чем у Deep Research, но на 6 п.п. выше, чем у GPT-4o.

MLE-Bench - один из интереснейших бенчмарков, оценивающий то, насколько модель способна справляться с задачами машинного обучения - то есть, задачами создания других моделей.

И здесь GPT-4.5 демонстрирует результат на уровне всех reasoning моделей, даже при том, что сама она reasoning-моделью не является.

SWE-Lancer - недавно представленный бенчмарк от OpenAI, который оценивает, насколько модель способна решать реальные фрилансерские задачи по разработке. Я писал о нём ранее. Так вот, в нём GPT-4.5 показывает отличные результаты - он обогнал все предыдущие модели, включая reasoning, уступая только Deep Research. GPT-4.5 решил 20% задач IC SWE и 44% задач SWE Manager, что немного выше, чем o1.Заключение

GPT-4.5 не является самой передовой моделью, но это крупнейшая LLM от OpenAI, улучшившая вычислительную эффективность GPT-4 более чем в 10 раз. Хотя GPT-4.5 демонстрирует увеличенный объем знаний, улучшенные навыки письма и более проработанную персонализацию по сравнению с предыдущими моделями, она не вводит принципиально новых передовых возможностей в сравнении с предыдущими версиями, ориентированными на логические рассуждения. Кроме того, качество её ответов зачастую уступает моделям o1, o3-mini и deep research. Однако, не стоит забывать, что GPT-4.5 даёт ответы сразу, в то время как o1/o3 могут думать минуты, а deep research - часы.Доступность

Модель будет доступна разработчикам всех тиров в API (что безумно круто, т.к. всякие o1-o3 доступны только для действительно продвинутых пользователей API OpenAI).

Доступ в Pro-подписке появится сегодня в ближайшее время, доступ в Plus-подписке должен появиться на следующей неделе.

Цена модели: $75 за 1M входных токенов (ппц), $150 за миллион токенов на выходе. Это сильно выше аналогичных моделей в момент релиза, да и текущих цен (скажем, GPT-4o прямо сейчас в десятки раз дешевле). Думаю, цена будет неуклонно снижаться с течением времени, как это было с предыдущими моделями.

UPD 1: Подъехало сравнение цены с другими популярными моделями. GPT-4.5 на 74900% дороже Gemini Flash 2.0:

UPD 2: Cursor заявили, что уже подключили GPT-4.5, и он весьма хорош для некоторых типов задач:

UPD 3: Вышел результат независимого бенчмарка Aider polyglot с задачками по программированию:

65% Sonnet 3.7, 32k токенов размышлений (SOTA)

60% Sonnet 3.7, без размышлений

48% DeepSeek V3

45% GPT 4.5 Preview

27% ChatGPT-4o

23% GPT-4o

P.S. В своём телеграм-канале я заставляю ИИ писать мне код (и видимо теперь потестирую для этого GPT-4.5), обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!



Источник новости: habr.com

DimonVideo
2025-02-28T00:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика