Платформа для записи и редактирования подкастов Podcastle теперь присоединяется к другим компаниям в гонке по преобразованию текста в речь с помощью ИИ, выпустив собственную модель под названием Asyncflow v1.0. Также будет доступен API для разработчиков, позволяющий напрямую интегрировать модель преобразования текста в речь в свои приложения.
Компания может предложить более 450 голосов ИИ, которые могут озвучивать текст. Также было заявлено, что технология и модель разработаны таким образом, чтобы затраты на обучение и вывод данных были низкими, что даёт преимущество перед конкурентами.
Таким образом, Podcastle присоединяется к ряду стартапов, включая ElevenLabs, Speechify и WellSaid, которые разработали технологию и модели искусственного интеллекта для преобразования любого текста в голосовой ролик, озвучиваемый искусственным интеллектом. Эта технология охватывает такие области использования, как маркетинг, реклама, создание контента, образование и корпоративное обучение.
Основатель Podcastle Арто Ерицян рассказал TechCrunch, что компания всегда хотела создать модель преобразования текста в речь, но затраты на обучение и требования к данным были очень высокими.
«Мы хотели создать надёжную модель преобразования текста в речь с самого начала. Однако затраты на разработку были очень высокими. Благодаря недавним разработкам больших языковых моделей в прошлом году мы смогли совершить прорыв и создать высококачественную голосовую модель без необходимости в огромном количестве данных», — сказал Ерицян.
В прошлом году компания также привлекла финансирование в размере 13,5 млн долларов.
Ерицян сказал, что в то время как Podcastle берёт около 40 долларов за 500 минут преобразования текста в речь, ElevenLabs берёт за то же самое 99 долларов.
Функция клонирования голоса в Podcastle также будет обновлена, чтобы ускорить процесс обучения.
Раньше в процессе обучения нужно было прочитать примерно 70 разных предложений. Теперь для создания клона голоса достаточно нескольких секунд записи. В новом процессе также используется Magic Dust AI от Podcastle, выпущенный в прошлом году, для улучшения качества аудиозаписи.
В ходе тестирования TechCrunch голос, созданный с помощью нового процесса, звучал немного роботизированно, хотя и имитировал тембр. Компания заявила, что со временем улучшит эту функцию. Кроме того, можно обучить разные образцы своего голоса, чтобы получить разные результаты.
Podcastle упомянул, что, помимо затрат, наличие инструментов для аудио, видео, подкастов и повествования на базе искусственного интеллекта на одном переработанном сайте даст ему преимущество перед конкурентами. Ерицян сказал, что, хотя большинство пользователей используют Podcastle для работы с аудиоконтентом, видео также набирают популярность.
Источник
Источник новости: habr.com