Начало темы здесь (ссылка на архивную копию форума mytts.info)
#1Сообщение Lecron » 02 янв 2019 12:06 Для Андроид есть программы прослушивания аудиокниг. Также, во многие читалки, встроена возможность озвучивания текста. Но нормальной программы, для удобной озвучки пока нет. Хочу описать, как я это вижу. Вдруг у кого-то возникнет желание прославиться и возможно даже заработать.
Работа с программой фактически состоит из двух частей. Базовая подготовка текста к озвучиванию и непосредственно озвучивание. Соответственно, нужны два независимых интерфейса. Про подготовительный, говорить нечего, примеров из мира Windows достаточно. В нем разметка текста на части (аналог "Разбить файл на части" из Балаболки), только без фактического разбиения, чтобы не захламлять файловую систему (частей несколько сотен, а иногда и за тысячу). Поиск и прослушивание имен собственных, основная проблема косяков с ударением. Возможно снятие омонимии, но кмк, для смартфонов/планшетов настолько плотная работа с исходником неудобна и избыточна.
А вот с прослушиванием. все серьезнее. Нужно по-возможности сохранить ВСЕ возможности плеера аудиокниг, но при генерации аудио на лету. Точнее, в достаточно емкий буфер. Список таких возможностей понятен из взгляда на интерфейс программ для аудиокниг. ▼ СКРЫТЬ Screenshot_2019-01-02-11-50-14.png Screenshot_2019-01-02-11-50-14.png (916.54 КБ) 30376 просмотров 1. Время прошедшее с начала книги и предположительная продолжительность книги, рассчитанная из размеров озвученного и полного размера книги. 2. Аналогично для фрагмента. Базируется на скорости озвучки книги (симв. в секунду) с коррекцией под реальную скорость чтения фрагмента. 3. Возможность регулирования скорости чтения. Причем не возможностями голосового движка, а timeStretch озвученного в буфер аудиофрагмента. Стандартный ползунок управления скорости из системных настроек, для разных движков дает разный результат. Причем результат ограниченный. Об удвоении скорости можно только мечтать. Индивидуальные настройки скорости движков, особенно в сочетании с системным, вообще непредсказуемы. 4. Эквалайзер. Да-да, помогает прилично улучшить звучание. И не столько скорректировать голос, сколько особенности звукового тракта аппарата. 5. Перемотка. 5а. По фрагментам. Тут все просто. 5б. По времени. Причем как на короткую дистанцию (15-20 сек), так и на длинную (1-2 мин). 5в. Отскок назад после паузы. Регулируется в настройках. У меня: пауза 5-60сек – 5 сек; 1-60мин – 10 сек; 1+ час – 20 сек. Помогает восстановить контекст. 6. Таймер сна. С автопродлением по факту потряхивания устройства. 7. Обложка. При ее отсутствии в файле – название файла. Клик по ней – плей/пауза Это основа, нужна каждый день. Возможно, со временем, у программы появятся и другие функции, аналогичные плееру аудиокниг.
#2
Сообщение Lecron » 24 окт 2018 19:15 Такое ощущение, что это не два голоса одного движка, а именно разные движки. Разные интонации внутри предложения. Разные ошибки произношения. Например "Жизнь расставила все по местам." Вера ошиблась в последнем слове, а Алексей ударение поставил правильно. В целом, Вера не понравилась, а Алексей весьма приятен. Надеюсь стабильность произношения на уровне. Не придется месяцами вылавливать блох, составляя мегабайтные словари коррекции.
ЗЫ. Никогда не думал, что технологии распознавания речи продвинутся дальше, чем синтеза.
#3
Сообщение Fenix » 24 окт 2018 20:14 Ну там вообще не понятно, что и откуда. Среди других языков есть и чисто Неоспичевские голоса (Bridget к примеру), и голоса, отличающиеся по звучанию. Возможно, это уже именно их разработки. Интересно, как будут в итоге выглядеть эти голоса и будет ли их версия под Android или Sapi? Если да, то я бы охотно попользовался.