Demagog TTS - Страница 10

[ ]

Страница 10 из 12 « 1 2 … 8 9 10 11 12 »
Модератор форума: flegont

Demagog TTS

flegont

Дата: Четверг, 22.07.2021, 01:25 | Сообщение #1

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Начало темы здесь (ссылка на архивную копию форума mytts.info)

(44,0 Mb) архивная копия начала текущей ветки с форума mytts.info - для офлайн просмотра и поиска по всем страницам

Домашняя страница

Скачать сохраненную копию:
Demagog 7.30.422
Demagog 7.30.422-x64

flegont

Дата: Понедельник, 16.10.2023, 11:52 | Сообщение #136

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Похоже, Великая сермяжная правда wink

состоит в том, что кроме голосов от Силеро, других оффлайн моделей TTS не существует в природе. Теперь и Силеро жалеет о том, что первоначально сделало свою разработку общедоступной. По крайней мере, буквально, на днях, русские голоса V3.1 ими из раздачи на гитхабе удалены. Оставлены только роботоподобные V4.

ilog

Дата: Понедельник, 16.10.2023, 19:20 | Сообщение #137

Группа: Пользователи

Сообщений: 10

Статус: Offline

Вот даже как... Только что попробовал скачать по URL из yaml, модель пока скачивается. Опять, спасибо за информацию.

flegont

Дата: Понедельник, 16.10.2023, 21:47 | Сообщение #138

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Да, точно... на гитхабе они убрали из таблицы моделей V3 упоминание о модели русского языка для V3, но сама моделька еще присутствует. Проверил на своем старом контрольном примере - скачивается. Ну и слава б-гу wink

flegont

Дата: Воскресенье, 26.11.2023, 19:02 | Сообщение #139

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Хм... я был неправ, считая, что кроме моделей Silero, других оффлайн-моделей не существует. В прошлом году на гитхабе появилась разработка piper tts, MIT License, (с) Michael Hansen. Первоначально была только под линукс, но теперь есть исполняемый модуль под винду, piper.exe - консольное приложение, 21 мб размером. Оптимизировано под микрокомпьютер Raspberry Pi 4. То есть под слабые компы точно подходит.

По скорости синтеза речи примерно в полтора раза быстрее Silero V3.1
На гитхабе выложено ~ 30 моделей всяческих голосов. Размером oт 30 (low), до 130 мб (high). Но 4 русских голоса пока только категории middle-качества. Ну, да, если проектом один чел занимается, трудно ждать большего.
Поиграюсь, доложу результаты

flegont

Дата: Воскресенье, 26.11.2023, 21:42 | Сообщение #140

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Piper TTS - пример озвучки

Голос: irina (middle)
Текст: Нахалка.txt

Изменен с помощью:
1) Ё.dic для ёфикации текста
2) Правка - Найти омографы - где надо проставлены всё
3) Правка - Найти/Заменить - здорово --> здоорово
4) Проставлены точки в пустых строках для организации пауз

Время озвучки: 54 сек (для сравнения Силеро: 1 мин 21 сек)
Неожиданно: piper самостоятельно переводит числа в словесную форму.

Совершено очевидно, что русскоязычные модели обучены на ёфицированных текстах. Если в слове, вместо положенной ему буквы ё встретится е то практически гарантирована ошибка в ударении.
Нет штатных средств для задания пауз в тексте, кроме параметра "пауза между предложениями" (по умолчанию 0.2 сек)
Не нашел никаких средств для простановки ударения в слове, кроме удвоения гласной (определил опытным путем)

Размер озвучиваемого текста - не ограничен. Первый эксперимент я вообще провел запуском из командной строки, подав пайперу весь упомянутый рассказ целиком. Пайпер как бы завис на 48 сек, потом выдал готовый wav-файл - полную озвучку.
Ну, а о качестве судите сами. Имхо - среднее, как собственно и оговорено (middle)

UPD 27.11.2023

Piper TTS - здесь всё это лежит, вместе с языковыми моделями, и исходными текстами piper на C++. Модели делятся по качеству на x-low, low, middle и high. Большинство - low. Числом поменьше - middle и совсем мало high. Понятное дело: какого объема корпус для обучения модели, такое и качество.
Английские - high, русские 4 голоса - middle. Нашел среди немецких один: thorsten-high. Вот этот чувак, который показывает на видео, как запустить piper на Windows. Собственно, из этого видео я и понял, как это делать wink

У него есть еще видео, как создать и обучить модель для нового голоса, ну там посложнее...
Так что, если разработчик и его группа поддержки будут и дальше развивать и совершенствовать piper, то перспективы есть.

И довольно-таки демократическая лицензия (перевод):
----------------------------------------------------------------------
Лицензия MIT

Авторские права © 2022 г. Майкл Хансен

Настоящим разрешение бесплатно предоставляется любому лицу, получившему копию этого программного обеспечения и связанных с ним файлов документации («Программное обеспечение»), на использование Программного обеспечения без ограничений, включая, помимо прочего, права на использование, копирование, изменение, объединение. публиковать, распространять, сублицензировать и/или продавать копии Программного обеспечения, а также разрешать лицам, которым предоставлено Программное обеспечение, делать это при соблюдении следующих условий:

Вышеупомянутое уведомление об авторских правах и настоящее уведомление о разрешении должны быть включены во все копии или существенные части Программного обеспечения.

flegont

Дата: Четверг, 30.11.2023, 20:13 | Сообщение #141

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Экспериментируя с Piper TTS, подсчитал скорость преобразования текста в аудио. В 1.5 .. 1.7 раза быстрее, чем Silero V3.1. Неплохо. Если бы еще разработчики пайпера создали модели русских голосов high качества...
(Английские high-голоса, кстати, там есть.)

flegont

Дата: Пятница, 01.12.2023, 18:02 | Сообщение #142

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

piper vs silero-models

Краткое содержание:
пайпер - не идеален, но всё же есть качественные английские голоса
качесто силеро v3.1 - почти на уровне гугла, но в английских голосах - много ошибок произношения
у пайпера открытый исходный код, и лояльная лицензия, позволяющая коммерческое использование

flegont

Дата: Среда, 13.12.2023, 22:29 | Сообщение #143

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

В завершение темы piper.
Добавил на оф.сайте в главе "18. Великан на дороге или нейросети для синтеза речи" параграф "Piper TTS".

Замечание. Папку с ознакомительной сборкой можно разместить в любом месте на компьютере, только не внутри другой папки, имеющей кириллическое название. Например, D:\Misc\Demagog-x64-Piper - верно; D:\Разное\Demagog-x64-Piper - вызовет ошибку при запуске скрипта. Такая специфика...

flegont

Дата: Среда, 13.12.2023, 22:38 | Сообщение #144

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

В той же главе добавил параграф "Demagog-x64-Silero-CUDA", где рассказал, как смог на своем ноуте заставить модели Silero V3.1 работать на GPU.
Выигрыш по скорости синтеза речи получился примерно в 6 раз, при сохранении качества звука. Например, книга в 600 страниц озвучивается за 15 мин.

wasyaka

Дата: Воскресенье, 17.12.2023, 21:13 | Сообщение #145

Группа: Модераторы

Сообщений: 35

Статус: Offline

(.*?)=\L$1 переводит весь текст в нижний регистр (нотерпад, эмэдитор) - В Демагоге не работает. Как можно реализовать?

flegont

Дата: Понедельник, 18.12.2023, 09:50 | Сообщение #146

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Через скрипт Lua

-- Текст в i-м окне в нижний регистр
function LowerText(i)
os.setlocale('', 'ctype')
s = WText(i)
s = string.lower(s)
os.setlocale('C')
return s
end

-- Test
print(LowerText(4))

Результат (практически мгновенный) в окне Статистики:
# Script>-- Текст в i-м окне в нижний регистр.txt

даниэль дефо
робинзон крузо

популярный роман английского писателя даниэля дефо об удивительных приключениях робинзона крузо, прожившего двадцать восемь лет в полном одиночестве на необитаемом
...
и т.д. до конца романа

flegont

Дата: Вторник, 19.12.2023, 18:06 | Сообщение #147

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Задался целью: выяснить, насколько хорошо или плохо ffmpeg.exe делает wav --> mp3
После нескольких нечетких результатов взял wav, соответствующий примерно главе книги.
Тут уже закономерность вроде бы стала ясней. (Кодек lame.exe тоже дал сходные результаты).

Битрейт - во сколько раз жмет исходный wav - мнение спецов из Вики wink

32 - 26 - так себе, разве что для речи
64 - 13 - ...
96 - 9 - подходит для речи
128 - 6 - начальное качество для музыки
192 - 4 - начальное качество для музыки, ныне популярный в инете формат
256 - 3 - хорошее качество для музыки

Для записи аудиокниг надо сжать wav хотя бы раз в 10, чтобы не было гигантского объема аудио.
Ну, ладно, вдруг потом захочется в mp3 наложить на речь тихий музыкальный фон... или какие-то звуки жизни - много есть ПО для такой постобработки...
Тогда в сборку неплохо бы добавить примерно такое меню:
----------------
mp3_64
mp3_96
mp3_128
mp3_192
----------------

Lecron

Дата: Вторник, 19.12.2023, 21:04 | Сообщение #148

Группа: Пользователи

Сообщений: 29

Статус: Offline

Цитата flegont (

)

насколько хорошо или плохо ffmpeg.exe делает wav --> mp3

Пора переходить на более современные кодеки. Рекомендую opus. Проблем с совместимостью не встречал давно. Скорость сжатия сопоставимая. Качество на низких битрейтах 50-100, требует на четверть-треть меньшего битрейта, чем у mp3. По умолчанию, если не указывать, голос кодирует 80 kbps, что примерно эквивалентно мр3 112 kbps

Цитата flegont (

)

Piper TTS - пример озвучки
Ну, а о качестве судите сами. Имхо - среднее, как собственно и оговорено (middle)

Качество фонетики терпимое. Но опять просодия!!! Которая, предположу, качеством модели не исправляется.
Для понимания огрехов, откройте файл в VLC и прослушайте на 2х скорости. Позволяет отрешится от собственно произношения и оценить речь в целом. Предельно монотонно, с паузами в совсем неожиданных местах.
Больше всего шокирован тем, что SAPI голоса с этим справляются намного лучше.

flegont

Дата: Вторник, 19.12.2023, 22:12 | Сообщение #149

V.I.P.

Группа: Модераторы

Сообщений: 141

Статус: Offline

Да, согласен, надо бы для Silero попробовать и другие кодеки, подумаю над этим.
Что касается Piper, то сыроват, сыроват... тут только надеяться, что разработчик и группа поддержки не бросят свой проект на полдороге...

Lecron

Дата: Вторник, 19.12.2023, 23:56 | Сообщение #150

Группа: Пользователи

Сообщений: 29

Статус: Offline

Цитата flegont (

)

Да, согласен, надо бы для Silero попробовать и другие кодеки, подумаю над этим.

Если заинтересовались, упомяну еще один момент.
Большинство прослушиваний идет на смартфонах. А их аудиотракт аппаратно умеет только в 48 кГц. При этом, встроенный ресемплер, не сказать чтобы качественный. Всё заточено на экономию энергии.
Opus тоже умеет только в 48 кГц, при этом имеет на борту неплохой родной ресемплер. Если же кодировать через ffmpeg, можно задействовать его ресемплер SoX (через параметр командной строки). Который по некоторым тестам еще капельку лучше.
Не скажу что разница критична, примерно как мр3 112 vs 128, но за счет этого, можно еще чуток вытянуть качество или улучшить сжатие.

И почему только для Силеро? На SAPI дает тот же выигрыш.

Demagog TTS

Страница 10 из 12
«
1
2
…
8
9
10
11
12
»