[ ]
  • Страница 10 из 11
  • «
  • 1
  • 2
  • 8
  • 9
  • 10
  • 11
  • »
Модератор форума: flegont  
MyTTS (форум) » Программы, использующие синтез речи в Windows » Demagog » Demagog TTS
Demagog TTS
flegontДата: Четверг, 22.07.2021, 01:25 | Сообщение #1
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Начало темы здесь (ссылка на архивную копию форума mytts.info)

 (44,0 Mb) архивная копия начала текущей ветки с форума mytts.info - для офлайн просмотра и поиска по всем страницам


 Скачать Demagog.zip

Домашняя страница
 
flegontДата: Понедельник, 16.10.2023, 11:52 | Сообщение #136
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Похоже, Великая сермяжная правда wink состоит в том, что кроме голосов от Силеро, других оффлайн моделей TTS не существует в природе. Теперь и Силеро жалеет о том, что первоначально сделало свою разработку общедоступной. По крайней мере, буквально, на днях, русские голоса V3.1 ими из раздачи на гитхабе удалены. Оставлены только роботоподобные V4.
 
ilogДата: Понедельник, 16.10.2023, 19:20 | Сообщение #137
Группа: Пользователи
Сообщений: 10
Статус: Offline
Вот даже как... Только что попробовал скачать по URL из yaml, модель пока скачивается. Опять, спасибо за информацию.
 
flegontДата: Понедельник, 16.10.2023, 21:47 | Сообщение #138
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Да, точно... на гитхабе они убрали из таблицы моделей V3 упоминание о модели русского языка для V3, но сама моделька еще присутствует. Проверил на своем старом контрольном примере - скачивается. Ну и слава б-гу wink
 
flegontДата: Воскресенье, 26.11.2023, 19:02 | Сообщение #139
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Хм... я был неправ, считая, что кроме моделей Silero, других оффлайн-моделей не существует. В прошлом году на гитхабе появилась разработка piper tts, MIT License, (с) Michael Hansen. Первоначально была только под линукс, но теперь есть исполняемый модуль под винду, piper.exe - консольное приложение, 21 мб размером. Оптимизировано под микрокомпьютер Raspberry Pi 4. То есть под слабые компы точно подходит.

По скорости синтеза речи примерно в полтора раза быстрее Silero V3.1
На гитхабе выложено ~ 30 моделей всяческих голосов. Размером oт 30 (low), до 130 мб (high). Но 4 русских голоса пока только категории middle-качества. Ну, да, если проектом один чел занимается, трудно ждать большего.
Поиграюсь, доложу результаты
 
flegontДата: Воскресенье, 26.11.2023, 21:42 | Сообщение #140
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Piper TTS - пример озвучки

Голос: irina (middle)
Текст: Нахалка.txt

Изменен с помощью:
1) Ё.dic для ёфикации текста
2) Правка - Найти омографы - где надо проставлены всё
3) Правка - Найти/Заменить - здорово --> здоорово
4) Проставлены точки в пустых строках для организации пауз

Время озвучки: 54 сек (для сравнения Силеро: 1 мин 21 сек)
Неожиданно: piper самостоятельно переводит числа в словесную форму.

Совершено очевидно, что русскоязычные модели обучены на ёфицированных текстах. Если в слове, вместо положенной ему буквы ё встретится е  то практически гарантирована ошибка в ударении.
Нет штатных средств для задания пауз в тексте, кроме параметра "пауза между предложениями" (по умолчанию 0.2 сек)
Не нашел никаких средств для простановки ударения в слове, кроме удвоения гласной (определил опытным путем)

Размер озвучиваемого текста - не ограничен. Первый эксперимент я вообще провел запуском из командной строки, подав пайперу весь упомянутый рассказ целиком. Пайпер как бы завис на 48 сек, потом выдал готовый wav-файл - полную озвучку.
Ну, а о качестве судите сами. Имхо - среднее, как собственно и оговорено (middle)

UPD 27.11.2023

Piper TTS - здесь всё это лежит, вместе с языковыми моделями, и исходными текстами piper на C++. Модели делятся по качеству на x-low, low, middle и high. Большинство - low. Числом поменьше - middle и совсем мало high. Понятное дело: какого объема корпус для обучения модели, такое и качество.
Английские - high, русские 4 голоса - middle. Нашел среди немецких один: thorsten-high. Вот этот чувак, который показывает на видео, как запустить piper на Windows. Собственно, из этого видео я и понял, как это делать wink
У него есть еще видео, как создать и обучить модель для нового голоса, ну там посложнее...
Так что, если разработчик и его группа поддержки будут и дальше развивать и совершенствовать piper, то перспективы есть.

И довольно-таки демократическая лицензия (перевод):
----------------------------------------------------------------------
Лицензия MIT

Авторские права © 2022 г. Майкл Хансен

Настоящим разрешение бесплатно предоставляется любому лицу, получившему копию этого программного обеспечения и связанных с ним файлов документации («Программное обеспечение»), на использование Программного обеспечения без ограничений, включая, помимо прочего, права на использование, копирование, изменение, объединение. публиковать, распространять, сублицензировать и/или продавать копии Программного обеспечения, а также разрешать лицам, которым предоставлено Программное обеспечение, делать это при соблюдении следующих условий:

Вышеупомянутое уведомление об авторских правах и настоящее уведомление о разрешении должны быть включены во все копии или существенные части Программного обеспечения.
 
flegontДата: Четверг, 30.11.2023, 20:13 | Сообщение #141
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Экспериментируя с Piper TTS, подсчитал скорость преобразования текста в аудио. В 1.5 .. 1.7 раза быстрее, чем Silero V3.1. Неплохо. Если бы еще разработчики пайпера создали модели русских голосов high качества...
(Английские high-голоса, кстати, там есть.)
 
flegontДата: Пятница, 01.12.2023, 18:02 | Сообщение #142
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
piper vs silero-models

Краткое содержание:
пайпер - не идеален, но всё же есть качественные английские голоса
качесто силеро v3.1 - почти на уровне гугла, но в английских голосах - много ошибок произношения
у пайпера открытый исходный код, и лояльная лицензия, позволяющая коммерческое использование
 
flegontДата: Среда, 13.12.2023, 22:29 | Сообщение #143
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
В завершение темы piper.
Добавил на оф.сайте в главе "18. Великан на дороге или нейросети для синтеза речи" параграф "Piper TTS".

Замечание. Папку с ознакомительной сборкой можно разместить в любом месте на компьютере, только не внутри другой папки, имеющей кириллическое название. Например, D:\Misc\Demagog-x64-Piper - верно; D:\Разное\Demagog-x64-Piper - вызовет ошибку при запуске скрипта. Такая специфика...
 
flegontДата: Среда, 13.12.2023, 22:38 | Сообщение #144
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
В той же главе добавил параграф "Demagog-x64-Silero-CUDA", где рассказал, как смог на своем ноуте заставить модели Silero V3.1 работать на GPU.
Выигрыш по скорости синтеза речи получился примерно в 6 раз, при сохранении качества звука. Например, книга в 600 страниц озвучивается за 15 мин.
 
wasyakaДата: Воскресенье, 17.12.2023, 21:13 | Сообщение #145
Группа: Модераторы
Сообщений: 35
Статус: Offline
(.*?)=\L$1 переводит весь текст в нижний регистр (нотерпад, эмэдитор) - В Демагоге не работает. Как можно реализовать?
 
flegontДата: Понедельник, 18.12.2023, 09:50 | Сообщение #146
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Через скрипт Lua

-- Текст в i-м окне в нижний регистр
function LowerText(i)
    os.setlocale('', 'ctype')
    s = WText(i)
    s = string.lower(s)
    os.setlocale('C')
    return s
end

-- Test
print(LowerText(4))

Результат (практически мгновенный) в окне Статистики:
# Script>-- Текст в i-м окне в нижний регистр.txt

даниэль  дефо
робинзон крузо

популярный роман английского писателя даниэля дефо об удивительных приключениях робинзона крузо, прожившего двадцать восемь лет в полном одиночестве на необитаемом
...
и т.д. до конца романа
 
flegontДата: Вторник, 19.12.2023, 18:06 | Сообщение #147
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Задался целью: выяснить, насколько хорошо или плохо ffmpeg.exe делает wav --> mp3
После нескольких нечетких результатов взял wav, соответствующий примерно главе книги.
Тут уже закономерность вроде бы стала ясней. (Кодек lame.exe тоже дал сходные результаты).

Битрейт - во сколько раз жмет исходный wav - мнение спецов из Вики wink

32 - 26 - так себе, разве что для речи
64 - 13 - ...
96 - 9 - подходит для речи
128 - 6 - начальное качество для музыки
192 - 4 - начальное качество для музыки, ныне популярный в инете формат
256 - 3 - хорошее качество для музыки

Для записи аудиокниг надо сжать wav хотя бы раз в 10, чтобы не было гигантского объема аудио.
Ну, ладно, вдруг потом захочется в mp3 наложить на речь тихий музыкальный фон... или какие-то звуки жизни - много есть ПО для такой постобработки...
Тогда в сборку неплохо бы добавить примерно такое меню:
----------------
mp3_64
mp3_96
mp3_128
mp3_192
----------------
 
LecronДата: Вторник, 19.12.2023, 21:04 | Сообщение #148
Группа: Пользователи
Сообщений: 17
Статус: Offline
Цитата flegont ()
насколько хорошо или плохо ffmpeg.exe делает wav --> mp3
Пора переходить на более современные кодеки. Рекомендую opus. Проблем с совместимостью не встречал давно. Скорость сжатия сопоставимая. Качество на низких битрейтах 50-100, требует на четверть-треть меньшего битрейта, чем у mp3. По умолчанию, если не указывать, голос кодирует 80 kbps, что примерно эквивалентно мр3 112 kbps
Цитата flegont ()
Piper TTS - пример озвучки
Ну, а о качестве судите сами. Имхо - среднее, как собственно и оговорено (middle)
Качество фонетики терпимое. Но опять просодия!!! Которая, предположу, качеством модели не исправляется.
Для понимания огрехов, откройте файл в VLC и прослушайте на 2х скорости. Позволяет отрешится от собственно произношения и оценить речь в целом. Предельно монотонно, с паузами в совсем неожиданных местах.
Больше всего шокирован тем, что SAPI голоса с этим справляются намного лучше.
 
flegontДата: Вторник, 19.12.2023, 22:12 | Сообщение #149
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Да, согласен, надо бы для Silero попробовать и другие кодеки, подумаю над этим.
Что касается Piper, то сыроват, сыроват... тут только надеяться, что разработчик и группа поддержки не бросят свой проект на полдороге...
 
LecronДата: Вторник, 19.12.2023, 23:56 | Сообщение #150
Группа: Пользователи
Сообщений: 17
Статус: Offline
Цитата flegont ()
Да, согласен, надо бы для Silero попробовать и другие кодеки, подумаю над этим.
Если заинтересовались, упомяну еще один момент.
Большинство прослушиваний идет на смартфонах. А их аудиотракт аппаратно умеет только в 48 кГц. При этом, встроенный ресемплер, не сказать чтобы качественный. Всё заточено на экономию энергии.
Opus тоже умеет только в 48 кГц, при этом имеет на борту неплохой родной ресемплер. Если же кодировать через ffmpeg, можно задействовать его ресемплер SoX (через параметр командной строки). Который  по некоторым тестам еще капельку лучше.
Не скажу что разница критична, примерно как мр3 112 vs 128, но за счет этого, можно еще чуток вытянуть качество или улучшить сжатие.

И почему только для Силеро? На SAPI дает тот же выигрыш.
 
MyTTS (форум) » Программы, использующие синтез речи в Windows » Demagog » Demagog TTS
  • Страница 10 из 11
  • «
  • 1
  • 2
  • 8
  • 9
  • 10
  • 11
  • »
Поиск:

Общение