Tinkoff VoiceKit - поддержка формата OGG_OPUS
|
|
balabolka | Дата: Понедельник, 22.08.2022, 17:01 | Сообщение #1 |
![balabolka](/avatar/00/00/00987212.png) V.I.P.
Группа: Модераторы
Сообщений: 164
Статус: Offline
| Tinkoff VoiceKit - неплохой онлайн-сервис для синтеза речи, но неудобный для использования в компьютерных программах. Аудиоданные возвращаются в экзотическом формате RAW_OPUS, который годится только для потокового синтеза речи. Мне же нужен непотоковый синтез.
То есть, все остальные онлайн-сервисы в мире используют стандартные форматы MP3, OggOpus или OggVorbis. Есть стандартные библиотеки для работы со звуковыми форматами. Для RAW_OPUS этого нет.
Ситуация интересна еще и тем, что разработчики Tinkoff VoiceKit имели планы по добавлению поддержки стандартных аудиоформатов. Вот что написано в их документации:
Код enum AudioEncoding { // Формат кодирования аудио. Задаёт и контейнер, и кодек. ENCODING_UNSPECIFIED = 0; LINEAR16 = 1; reserved "FLAC"; reserved 2; reserved "MULAW"; reserved 3; reserved "AMR"; reserved 4; reserved "AMR_WB"; reserved 5; reserved "OGG_OPUS"; reserved 6; reserved "SPEEX_WITH_HEADER_BYTE"; reserved 7; ALAW = 8; reserved "LINEAR32F"; reserved 9; reserved "OGG_VORBIS"; reserved 10; RAW_OPUS = 11; reserved "MPEG_AUDIO"; reserved 12; } Для формата OggOpus они зарезервировали специальное значение константы; значит, думали об этом, что-то планировали.
Хорошо, написал в службу поддержки, попросил добавить поддержку формата OGG_OPUS. Поначалу их ответ вселил в меня оптимизм:
Цитата Поддержка OGG OPUS уже есть в backlog'e наших задач, но не было до этого запросов от пользователей, поэтому не реализовывали. По возможности постараемся взять в работу. Но после обмена еще несколькими письмами получил вот такое сообщение:
Цитата Насчёт поддержки Ogg Opus, Ogg Vorbis, MP3 - в первую очередь мы ориентировались на стриминг (не на REST), а для него в них особого смысла нет. Но мы рассмотрим задачу, как лучше их встроить в Synthesize, с учётом других design flaws этого метода. Прошло еще какое время, я напомнил им о своей просьбе:
Цитата Пожалуйста, добавьте для непотокового синтеза речи Synthesize поддержку формата кодирования аудио OGG_OPUS. В Ваших примерах на GitHub можно увидеть зарезервированное значение константы для этого формата. Получил вот такой ответ:
Цитата К сожалению, нам пока не удалось взять в работу данный кейс, т.к. запросов на эту доработку, кроме Вашего, больше не поступало. Мы сообщим Вам о смене статуса данной задачи. Хм, что ж, раз я единственный, кого это вообще интересует, заранее предупреждаю пользователей "Балаболки": до конца года поддержка сервиса Tinkoff VoiceKit будет убрана из моей программы. Попросил добавить поддержку звукового формата, который есть у всех других онлайн-сервисов, мне ответили отказом; всё понятно.
|
|
| |
notnick | Дата: Воскресенье, 04.12.2022, 12:55 | Сообщение #2 |
Группа: Пользователи
Сообщений: 35
Статус: Offline
| Цитата balabolka ( ![Ссылка на цитируемый текст](/.s/img/fr/ic/2/lastpost.gif) ) что ж, раз я единственный, кого это вообще интересует, заранее предупреждаю пользователей "Балаболки": до конца года поддержка сервиса Tinkoff VoiceKit будет убрана из моей программы. Да нет.. не "единственный".. Мне тоже немного жаль, что их два голоса нельзя качнуть. (А так вне темы Тинков и , и пусть он сам колупается.. Его проблемы).
Сообщение отредактировал Admin - Вторник, 06.12.2022, 23:00 |
|
| |
notnick | Дата: Вторник, 24.01.2023, 08:53 | Сообщение #3 |
Группа: Пользователи
Сообщений: 35
Статус: Offline
| Цитата balabolka ( ![Ссылка на цитируемый текст](/.s/img/fr/ic/2/lastpost.gif) ) они зарезервировали специальное значение константы; значит, думали об этом, что-то планировали
balabolka, есть новое от Тинкова?? Я хочу сказать, что голос Тинкова (и Сберовский голос "Наташка") - это лучшие сегодня русскоязычные голоса! Эти два голоса - высшая лига! Они вне конкуренции! Жирная точка.
(Что интересно еще - это голос частной команды Silero "Ксения", который может войти в эту высшую лигу, если для него доделают вопросительные фразы!) Вот такое моё мнение...
Сообщение отредактировал notnick - Вторник, 24.01.2023, 08:56 |
|
| |
balabolka | Дата: Вторник, 24.01.2023, 10:53 | Сообщение #4 |
![balabolka](/avatar/00/00/00987212.png) V.I.P.
Группа: Модераторы
Сообщений: 164
Статус: Offline
| Цитата notnick ( ![Ссылка на цитируемый текст](/.s/img/fr/ic/2/lastpost.gif) ) balabolka, есть новое от Тинкова?? Почему Вы меня спрашиваете?! Я у них не работаю. Обращайтесь в службу поддержки сервиса.
Последний релиз голосов был в октябре 2022 года: как было заявлено, немного улучшилось качество звучания, были исправлены ошибки в произношении слов. С точки зрения API ничего не поменялось: непотоковый синтез возвращает аудиофайл размером не более одного мегабайта, и только в форматах RAW_OPUS или WAV. Разработчики по-прежнему делают вид, что популярных форматов вроде MP3 или OggOpus не существует.
Сообщение отредактировал balabolka - Вторник, 24.01.2023, 10:54 |
|
| |
notnick | Дата: Среда, 25.01.2023, 11:58 | Сообщение #5 |
Группа: Пользователи
Сообщений: 35
Статус: Offline
| Цитата balabolka ( ![Ссылка на цитируемый текст](/.s/img/fr/ic/2/lastpost.gif) ) Почему Вы меня спрашиваете?! Я у них не работаю. Я у них тоже не работаю, поэтому спрашиваю у вас. Потому что вот:
Цитата balabolka ( ![Ссылка на цитируемый текст](/.s/img/fr/ic/2/lastpost.gif) ) раз я единственный, кого это вообще интересует, я написал, что нет, не единственный!
|
|
| |