OpenAI представила GPT-4o

Разное

22:50 13-05-2024

DimonVideo

OpenAI представила новую языковую модель GPT-4o, которая теперь ляжет в основу ChatGPT. GPT-4o может воспринимать и генерировать звук, изображение и текст и будет доступна всем пользователям бесплатно.

О в GPT-4o означает omni, что должно отражать универсальность её работы. Эта версия «намного быстрее» предшественниц и занимает первое место по всем тестам по сравнению с конкурентами, включая Google Gemini.

Среди особенностей модели:

может реагировать на аудиовход всего за 232 миллисекунды, в среднем 320 миллисекунд, что аналогично времени реакции человека(откроется в новом окне) в разговоре;

общается голосом «как человек», меняя интонации;

улучшенная память: модель запоминает все беседы с пользователем;

соответствует производительности GPT-4 Turbo для текста на английском языке и кода;

значительно улучшена работа с текстом не на английском языке (поддерживает 50 языков);

синтез объектов в 3D;

намного лучше воспринимает и анализирует изображения, включая графики, диаграммы и скриншоты, по сравнению с существующими моделями;

пользуется как собственными знаниями, так и данными из Интернета.

Полный список возможностей модели перечислен в посте в блоге OpenAI. В ходе демонстрации GPT-4o сотрудники OpenAI пообщались с ней голосом, продемонстрировав её умение понимать тон и направление беседы и то, как естественно она разговаривает и даже шутит. Её также попросили сымитировать типичный голос робота, с чем она также справилась.

Согласно посту в блоге OpenAI, возможности GPT-4o «будут развёртываться постепенно начиная с сегодняшнего дня», но функции обработки текста и изображений начнут должны появиться в ChatGPT в ближайшее время. Для разработчиков новая модель доступна через API «уже сегодня», заявила технический директор OpenAI Мира Мурати. OpenAI пообещала также выпустить приложение для ПК.