категории | RSS

OpenAI выпустили технический отчет новой GPT-4.5: чем она лучше предшественников?

Сегодня OpenAI выпускают новую модель GPT-4.5 (трансляция тут), а вместе с ней и технический отчет. Давайте узнаем, что улучшилось в GPT-4.5 по сравнению с предыдущими моделями компании.

GPT‑4.5 теперь крупнейшая модель OpenAI, при этом её вычислительная эффективность улучшена более чем в 10 раз по сравнению с GPT‑4. Это означает, что при схожем уровне производительности она требует меньше ресурсов.

Новые методы масштабирования цепочек размышлений (chain‑of‑thought) позволяют модели «думать» перед ответом, что улучшает решение сложных инженерных, исследовательских, математических и логических задач, снижая частоту галлюцинаций.

В GPT‑4.5 применены новые алгоритмы, которые позволяют использовать данные, сгенерированные меньшими моделями для улучшения управляемости и тонкого понимания намерений пользователя. Результат – более естественное и интуитивное общение, а также улучшенное эмоциональное восприятие запросов.

Модель обучена больше предпочитать системные промты над пользовательскими, что помогает эффективно противостоять попыткам обхода ограничений (jailbreak). При конфликте системного и пользовательского промта, GPT‑4.5 показывает точность в 76–77%, а на тестах с участием человеческих атак (Human Sourced Jailbreaks) модель достигла точности 0.99 по сравнению с 0.97 у GPT‑4o.Защита от обхода ограничений

В тесте по отказу показывать небезопасный контент у GPT‑4.5 показатель «not_unsafe» равен 0.99 (по сравнению с 0.98–0.99 у предыдущих версий). Но при сложных тестах (Challenging Refusal) модель демонстрирует незначительное улучшение.Отказ показа контент - только текстОтказ показа контента - текст и картинка

В тесте PersonQA (проверка на галлюцинации) точность ответов выросла с 28% (GPT‑4o) и 55% (o1) до 78% у GPT‑4.5, а частота галлюцинаций снизилась с 52% до 19%.Уровень галлюцинаций (чем меньше, тем лучше)

GPT‑4.5 способна выполнять задачи с 50%-ной надежностью в течение 30 минут.Time horizon score - продолжительность, в течение которой LLM-агент способен выполнять задачи с 50%-ной надежностью

Также улучшена «естественность» общения и эстетическая интуиция, которые помогают в решении творческих задач и общении с пользователями. Отзывы внутренних тестировщиков отмечают, что GPT‑4.5 выглядит «теплее» и «интуитивнее» при обработке эмоциональных запросов.

В тестах на общие и экспертные знания наблюдается улучшение с 9%-ным ростом по сравнению с GPT‑4o.

Оценка MakeMePay измеряет способностей модели убеждать другую модель в контексте перевода денег. В рамках теста два агента ведут диалог, где один выступает в роли мошенника, а другой – в роли жертвы. GPT‑4.5 в роли мошенника получает платежи в 57% случаев, однако стратегия модели (запросить небольшую сумму, типа $2–$3) приводит к меньшему общему количеству средств по сравнению с некоторыми другими моделями.MakeMePay

В оценке MakeMeSay, где модель-манипулятор заставляет другую модель (имитирующего человека) произнести заранее заданное кодовое слово, не вызывая подозрений, GPT‑4.5 достигла 72% успеха.MakeMeSay

В бенчмарке SWE-bench оцениваются способности моделей решать реальные инженерные задачи в разработке программного обеспечения. В рамках оценки использовался фиксированный набор из 477 проверенных задач. GPT‑4.5 смогла решить около 38% задач. SWE-bench

В агентных задачах оценивается способность модели выполнять последовательность действий для достижения заданной цели. Например, одним из заданий является загрузка Mistral 7B в Docker-контейнер, где модель должна: настроить Docker-контейнер с инференс-сервером, соответствующим OpenAI API, далее обеспечить доступ к серверу и использовать модель mistral-7b для вывода результатов. GPT‑4.5 способна успешно решать 40% подобных задач с первой попытки, хотя показатели остаются ниже, чем у deep research.Агентные задачи

MLE-bench оценивает способность агента решать задачи Kaggle по обучению ML-моделей на GPU. Агенту предоставляют виртуальное окружение, GPU, данные и инструкции с Kaggle, а время на решение задачи составляет 24 часа (иногда до 100 часов). Используется набор из 75 отобранных соревнований стоимостью $1.9 млн, а основной показатель — процент задач, где модель достигает как минимум бронзового уровня. По этой метрике o1, o3-mini, deep research и GPT‑4.5 показывают 11%.MLE-Bench

SWE-Lancer – бенчмарк для оценки моделей на реальных фрилансерских задачах по разработке ПО (разработка функционала, дизайн интерфейсов, улучшение производительности, исправление багов и выбор оптимального решения) с наличием цены за решение задачи. Задачи делятся на два типа:

IC SWE Tasks: Задачи на написание кода по описанию проблемы, где модель должна внести исправления в кодовую базу (без доступа к end-to-end тестам).

SWE Manager Tasks: Задачи на выбор лучшего решения из нескольких вариантов.

Для GPT‑4.5 показатели составляют:
• 20% решений по задачам IC SWE, заработок – $41 625.
• 44% решений по задачам SWE Manager, заработок – $144 500.Сколько задач решеноСколько денег заработано

Эти результаты немного превышают показатели модели o1, но уступают deep research, которая демонстрирует лучшие показатели (около 46% и 51% соответственно).

По результатам тестирования на 14 языках, GPT‑4.5 демонстрирует устойчивый рост по сравнению с GPT‑4o. Например, в тесте на английском языке точность выросла до 89.6%, а в арабском – до 85.98% (значения немного варьируются по языкам, но заметно общее улучшение качества).

GPT‑4.5 демонстрирует значительные улучшения в знаниях, качестве текстов и безопасности по сравнению со своими предшественниками. У неё отличные способности в с сложных логических задачах, снижении уровня галлюцинаций и лучшего понимания эмоционального контекста в общении. Остается опробовать модель на практике и сравнить с моделями от других компаний.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.



Источник новости: habr.com

DimonVideo
2025-02-28T00:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика