OpenAI выпускает новое поколение аудиомоделей: улучшенное распознавание и настройка стиля речи ИИ

Разное

10:50 21-03-2025

DimonVideo

OpenAI выпускает новое поколение аудиомоделей: улучшенное распознавание и настройка стиля речи ИИ

Компания OpenAI выпустила новое поколение аудиомоделей, которые позволяют разработчикам настраивать речь своих ИИ-помощников. Обновление включает улучшенное распознавание речи и возможность управлять стилем речи ИИ с помощью простых текстовых команд.

По данным OpenAI, их новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe допускают меньше ошибок при преобразовании речи в текст, чем предыдущие системы Whisper. Компания заявляет, что эти модели лучше работают в сложных условиях, таких как сильный акцент, шумная обстановка и разная скорость речи.

Наиболее примечательной особенностью является новая модель gpt-4o-mini-tts преобразования текста в речь. Система реагирует на такие инструкции по стилю, как «говорите как пират» или «расскажите это как сказку на ночь», что позволяет разработчикам точно настраивать звучание голоса ИИ. Эти возможности основаны на архитектурах GPT-4o и GPT-4o-mini от OpenAI, которые обрабатывают несколько типов входных и выходных данных.

По словам OpenAI, улучшенная производительность достигается за счёт специализированного предварительного обучения на наборах аудиоданных для более детального понимания речи, более эффективных методов сжатия моделей и расширенного использования обучения с подкреплением в распознавании речи. Компания внедрила методы «самообучения» для имитации естественных моделей общения.

Теперь разработчики могут получить доступ к этим моделям через API OpenAI и интегрировать их с помощью Agents SDK. Для приложений, работающих в реальном времени, OpenAI предлагает использовать Realtime API с функцией преобразования текста в речь.

На данный момент система работает только с предустановленными искусственными голосами OpenAI — разработчики не могут создавать новые голоса или клонировать существующие. Компания заявляет, что в будущем планирует разрешить использование пользовательских голосов, сохраняя при этом стандарты безопасности, и стремится расширить возможности до видео для мультимодального взаимодействия.

Это обновление последовало за представлением OpenAI в марте 2024 года голосового движка Voice Engine, который был ограничен собственными продуктами и избранными клиентами. Эта более ранняя модель, по-видимому, была заменена более широкими мультимодальными возможностями GPT-4o.

Источник

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

OpenAI выпускает новое поколение аудиомоделей: улучшенное распознавание и настройка стиля речи ИИ

Разное

Похожие файлы

«Яндекс» представила Алису нового поколения и улучшенную Алису Про

Yandex GPT5 — новое поколение, которое лучше справляется с бизнес-задачами

OpenAI выпустила новые рекордные модели o3 и o4-mini

Глава OpenAI: текущее железо не потянет ИИ нового поколения