Компания OpenAI выпустила новое поколение аудиомоделей, которые позволяют разработчикам настраивать речь своих ИИ-помощников. Обновление включает улучшенное распознавание речи и возможность управлять стилем речи ИИ с помощью простых текстовых команд.
По данным OpenAI, их новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe допускают меньше ошибок при преобразовании речи в текст, чем предыдущие системы Whisper. Компания заявляет, что эти модели лучше работают в сложных условиях, таких как сильный акцент, шумная обстановка и разная скорость речи.
Наиболее примечательной особенностью является новая модель gpt-4o-mini-tts преобразования текста в речь. Система реагирует на такие инструкции по стилю, как «говорите как пират» или «расскажите это как сказку на ночь», что позволяет разработчикам точно настраивать звучание голоса ИИ. Эти возможности основаны на архитектурах GPT-4o и GPT-4o-mini от OpenAI, которые обрабатывают несколько типов входных и выходных данных.
По словам OpenAI, улучшенная производительность достигается за счёт специализированного предварительного обучения на наборах аудиоданных для более детального понимания речи, более эффективных методов сжатия моделей и расширенного использования обучения с подкреплением в распознавании речи. Компания внедрила методы «самообучения» для имитации естественных моделей общения.
Теперь разработчики могут получить доступ к этим моделям через API OpenAI и интегрировать их с помощью Agents SDK. Для приложений, работающих в реальном времени, OpenAI предлагает использовать Realtime API с функцией преобразования текста в речь.
На данный момент система работает только с предустановленными искусственными голосами OpenAI — разработчики не могут создавать новые голоса или клонировать существующие. Компания заявляет, что в будущем планирует разрешить использование пользовательских голосов, сохраняя при этом стандарты безопасности, и стремится расширить возможности до видео для мультимодального взаимодействия.
Это обновление последовало за представлением OpenAI в марте 2024 года голосового движка Voice Engine, который был ограничен собственными продуктами и избранными клиентами. Эта более ранняя модель, по-видимому, была заменена более широкими мультимодальными возможностями GPT-4o.
Источник
Источник новости: habr.com