Нейро-синтез речи своими руками

[ ]

Страница 1 из 1
1

Admin

Дата: Суббота, 17.07.2021, 22:48 | Сообщение #1

Группа: Администраторы

Сообщений: 140

Статус: Offline

Начало темы здесь (ссылка на архивную копию форума mytts.info)

Pin240

Дата: Вторник, 19.07.2022, 21:44 | Сообщение #2

Группа: Пользователи

Сообщений: 111

Статус: Offline

Салют народ. Прошло столько времени а это тема как-то стихла sad

Пытался сам реализовать на Python. Честно запарился жуть, не смотря на то что я не программист вообще) Но очень хотелось офлайн перегон biggrin

После месячного колупания все же осилил. Пример звучания прикрепляю.
Фарширован следующим функционалам:

1) Использованная модель работает на CPU ~1.4х на Intel Pentium B970 (2 ядра 2.3Гц) 8гб Win7x64
2) Удаляет все левые символы
3) Подключен словарь замен для ударений (пока работает кривенько в некоторых моментах из-за моего не знания python-а)
4) WAV 16 бит 48kHz mono сразу перегоняется в MP3 с разбиением по 25 мин. Чтобы не занимать гигабайты места.

Делается для последующего бесплатного распространения.

Ищу питаниста чтобы сделать графический интерфейс. Один я пилить буду долго.
Буду рад если появится отдельная тема "Offline TTS на Python-e" Название проге пока не придумал.

Первые консольные компилированные версии постараюсь скоро прикрепить. Хочу сделать по принципу "Все должно работать из коробки"

Прикрепления: BF_1_01.mp3 (1.25 Mb)

Сообщение отредактировал Pin240 - Вторник, 19.07.2022, 22:17

tonio_k

Дата: Вторник, 19.07.2022, 23:15 | Сообщение #3

Группа: Пользователи

Сообщений: 179

Статус: Offline

Цитата Pin240 (

)

чтобы сделать графический интерфейс

Можно попробовать воспользоваться имеющимся функционалом программы Демагог первоначально программа заточена работать со скриптами lua, но с недавнего времени она поддерживает и скрипты Python. Так что можно настроить окна диалогов в Демагоге и далее запускать тот функционал, что у вас есть. Что бы понять что именно нужно, нужно посмотреть что у вас есть и что для корректной работы нужно. А там подумаем вдруг своими силами осилим? wink

Pin240

Дата: Среда, 20.07.2022, 17:47 | Сообщение #4

Группа: Пользователи

Сообщений: 111

Статус: Offline

Демагог не пробовал, но возможно и под него подстроить, но хочется отдельный не зависимый продукт слепить^_^
Вот пока что скомпилированные версии для "попробовать" TTS_console на мыле.
Там где мало файлов при запуске нужно подождать, пока прога разархивируется во временные (tts_v3_to_dic_wav_mp3_segment_W7x64(baya))
Не мение 3 Гб свободного места.
Тот что tts_console_V3 - таже начинка но не в одном файле, но не требуется распаковка во временные. Запускается быстрей.
Важно! Файл должен быть в том же каталоге.
Это следующая до работка по списку

Сейчас txt обязательно в кодировке utf-8. Времени пока нет слепить авто подгон по эту кодировку

Сразу скажу модель (model.pt) не моя но она в открытом доступе от таварищей silero-models

Сообщение отредактировал Pin240 - Среда, 20.07.2022, 17:55

tonio_k

Дата: Четверг, 21.07.2022, 13:54 | Сообщение #5

Группа: Пользователи

Сообщений: 179

Статус: Offline

Цитата Pin240 (

)

"попробовать" TTS_console на мыле.

попробовал - работает. В Линуксе через Wine запускается и аудио создается.

1)Все же хотелось бы увидеть консоль не в виде exe, а в виде соответстующего cмd файла - так будет удобнее передавать пути и параметры к обрабатываемому текстовому файлу при написании интерфейса в Демагоге. Словарями текст лучше обработать словарями из сборок Демагога - хотя бы словарями для Яндекса. Думаю, ошибок будет в разы меньше

2)Можно ли менять голоса на мужской/женский?

В целом, процесс синтеза очень долгий (о чем вы ранее и предупреждали). Я запускал в Линуксе через wine 100% загрузка ЦП. Попробую потом в Windows7 - должно отработать чуть быстрее.

Pin240

Дата: Четверг, 21.07.2022, 17:25 | Сообщение #6

Группа: Пользователи

Сообщений: 111

Статус: Offline

Цитата tonio_k (

)

2)Можно ли менять голоса на мужской/женский?

Да там есть по моему 5 или 4 голоса. Как то не задумывался о их переключении. Стараюсь допилить то что есть.

Цитата tonio_k (

)

Я запускал в Линуксе через wine 100% загрузка ЦПУже

Уже оптимизировал подачу текста (доработал цикл) на одну партию. На ускорение это не сильно скажется, но как уже Вам писал, меньше нагрузит ОЗУ + меньше обращений к HDD.

Цитата tonio_k (

)

а в виде соответстующего cмd файла

Думаю это можно, но на все нужно время. Пока все упирается в мои малые познания pythona и свободное время, но основной целью ставлю именно графический интерфейс.

Цитата tonio_k (

)

хотя бы словарями для Яндекса

Я использовал именно его.

Pin240

Дата: Суббота, 23.07.2022, 14:24 | Сообщение #7

Группа: Пользователи

Сообщений: 111

Статус: Offline

Сделал отдельную тему Picobook TTS Offline для обсуждения и пожеланий. Там же буду писать о новых версиях

Нейро-синтез речи своими руками

Страница 1 из 1
1