OpenAI объявила об одном из крупнейших обновлений ChatGPT: нейросеть научилась распознавать голос пользователя (в режиме живой беседы, а не как раньше) и отвечать ему тоже голосом, а также анализировать картинки, распознавая изображённые на них объекты.
Ранее мобильные клиенты ChatGPT уже умели распознавать голос человека, преобразовывая его в текст с помощью нейросети Whisper — по сути, это была не более чем функция надиктовки. Теперь же в приложениях появится полноценный интерфейс для общения с нейронной сетью, которая будет отвечать. При этом голос пользователя так же будет распознаваться с помощью Whisper, поэтому уже сейчас понятен уровень «понимания» человеческой речи — весьма неплохой. К слову, Whisper понимает и русский, поэтому есть большая вероятность, что функция общения в ChatGPT будет тоже совместима с русским языком.
Реализация «зрения» оказалась для OpenAI если не сложнее, то куда ответственнее, поскольку нейросети всё ещё могут ошибаться при распознавании объектов. В связи с этим разработчики намеренно ввели некоторые ограничения, среди которых запрет на анализ и прямые заявления о людях на изображениях. Полезной функцией будет опция выделения нужного объекта на картинке, чтобы акцентировать внимание нейросети именно на нём.
Оба новшества начнут появляться у пользователей подписок Plus и Enterprise в течение ближайших двух недель. В будущем они станут доступны и «другим группам юзеров». При этом режимом общения с нейросетью получится воспользоваться только в клиентах для iOS и Android, а вот функция распознавания изображений заработает на всех платформах.
Источник новости: trashbox.ru