Нейро-синтез речи своими руками
|
|
Admin | Дата: Суббота, 17.07.2021, 22:48 | Сообщение #1 |
Группа: Администраторы
Сообщений: 140
Статус: Offline
| Начало темы здесь (ссылка на архивную копию форума mytts.info)
|
|
| |
Pin240 | Дата: Вторник, 19.07.2022, 21:44 | Сообщение #2 |
Группа: Пользователи
Сообщений: 111
Статус: Offline
| Салют народ. Прошло столько времени а это тема как-то стихла  Пытался сам реализовать на Python. Честно запарился жуть, не смотря на то что я не программист вообще) Но очень хотелось офлайн перегон После месячного колупания все же осилил. Пример звучания прикрепляю. Фарширован следующим функционалам:
1) Использованная модель работает на CPU ~1.4х на Intel Pentium B970 (2 ядра 2.3Гц) 8гб Win7x64 2) Удаляет все левые символы 3) Подключен словарь замен для ударений (пока работает кривенько в некоторых моментах из-за моего не знания python-а) 4) WAV 16 бит 48kHz mono сразу перегоняется в MP3 с разбиением по 25 мин. Чтобы не занимать гигабайты места.
Делается для последующего бесплатного распространения.
Ищу питаниста чтобы сделать графический интерфейс. Один я пилить буду долго. Буду рад если появится отдельная тема "Offline TTS на Python-e" Название проге пока не придумал.
Первые консольные компилированные версии постараюсь скоро прикрепить. Хочу сделать по принципу "Все должно работать из коробки"
Сообщение отредактировал Pin240 - Вторник, 19.07.2022, 22:17 |
|
| |
tonio_k | Дата: Вторник, 19.07.2022, 23:15 | Сообщение #3 |
Группа: Пользователи
Сообщений: 178
Статус: Offline
| Цитата Pin240 (  ) чтобы сделать графический интерфейс Можно попробовать воспользоваться имеющимся функционалом программы Демагог первоначально программа заточена работать со скриптами lua, но с недавнего времени она поддерживает и скрипты Python. Так что можно настроить окна диалогов в Демагоге и далее запускать тот функционал, что у вас есть. Что бы понять что именно нужно, нужно посмотреть что у вас есть и что для корректной работы нужно. А там подумаем вдруг своими силами осилим?
|
|
| |
Pin240 | Дата: Среда, 20.07.2022, 17:47 | Сообщение #4 |
Группа: Пользователи
Сообщений: 111
Статус: Offline
| Демагог не пробовал, но возможно и под него подстроить, но хочется отдельный не зависимый продукт слепить^_^ Вот пока что скомпилированные версии для "попробовать" TTS_console на мыле. Там где мало файлов при запуске нужно подождать, пока прога разархивируется во временные (tts_v3_to_dic_wav_mp3_segment_W7x64(baya)) Не мение 3 Гб свободного места. Тот что tts_console_V3 - таже начинка но не в одном файле, но не требуется распаковка во временные. Запускается быстрей. Важно! Файл должен быть в том же каталоге. Это следующая до работка по списку
Сейчас txt обязательно в кодировке utf-8. Времени пока нет слепить авто подгон по эту кодировку
Сразу скажу модель (model.pt) не моя но она в открытом доступе от таварищей silero-models
Сообщение отредактировал Pin240 - Среда, 20.07.2022, 17:55 |
|
| |
tonio_k | Дата: Четверг, 21.07.2022, 13:54 | Сообщение #5 |
Группа: Пользователи
Сообщений: 178
Статус: Offline
| Цитата Pin240 (  ) "попробовать" TTS_console на мыле. попробовал - работает. В Линуксе через Wine запускается и аудио создается.
1)Все же хотелось бы увидеть консоль не в виде exe, а в виде соответстующего cмd файла - так будет удобнее передавать пути и параметры к обрабатываемому текстовому файлу при написании интерфейса в Демагоге. Словарями текст лучше обработать словарями из сборок Демагога - хотя бы словарями для Яндекса. Думаю, ошибок будет в разы меньше
2)Можно ли менять голоса на мужской/женский?
В целом, процесс синтеза очень долгий (о чем вы ранее и предупреждали). Я запускал в Линуксе через wine 100% загрузка ЦП. Попробую потом в Windows7 - должно отработать чуть быстрее.
|
|
| |
Pin240 | Дата: Четверг, 21.07.2022, 17:25 | Сообщение #6 |
Группа: Пользователи
Сообщений: 111
Статус: Offline
| Цитата tonio_k (  ) 2)Можно ли менять голоса на мужской/женский? Да там есть по моему 5 или 4 голоса. Как то не задумывался о их переключении. Стараюсь допилить то что есть. Цитата tonio_k (  ) Я запускал в Линуксе через wine 100% загрузка ЦПУже Уже оптимизировал подачу текста (доработал цикл) на одну партию. На ускорение это не сильно скажется, но как уже Вам писал, меньше нагрузит ОЗУ + меньше обращений к HDD.Цитата tonio_k (  ) а в виде соответстующего cмd файла Думаю это можно, но на все нужно время. Пока все упирается в мои малые познания pythona и свободное время, но основной целью ставлю именно графический интерфейс. Цитата tonio_k (  ) хотя бы словарями для Яндекса Я использовал именно его.
|
|
| |
Pin240 | Дата: Суббота, 23.07.2022, 14:24 | Сообщение #7 |
Группа: Пользователи
Сообщений: 111
Статус: Offline
| Сделал отдельную тему Picobook TTS Offline для обсуждения и пожеланий. Там же буду писать о новых версиях
|
|
| |