[ ]
  • Страница 1 из 1
  • 1
MyTTS (форум) » ОБЩИЕ ВОПРОСЫ » Сведения, обсуждения, новости » Нейро-синтез речи своими руками
Нейро-синтез речи своими руками
AdminДата: Суббота, 17.07.2021, 22:48 | Сообщение #1
Группа: Администраторы
Сообщений: 140
Статус: Offline
Начало темы здесь (ссылка на архивную копию форума mytts.info)

 
Pin240Дата: Вторник, 19.07.2022, 21:44 | Сообщение #2
Группа: Пользователи
Сообщений: 104
Статус: Offline
Салют народ. Прошло столько времени а это тема как-то стихла sad
Пытался сам реализовать на Python. Честно запарился жуть, не смотря на то что я не программист вообще) Но очень хотелось офлайн перегон biggrin  После месячного  колупания все же осилил. Пример звучания прикрепляю.
Фарширован следующим функционалам:

1) Использованная модель работает на CPU  ~1.4х на Intel Pentium B970 (2 ядра 2.3Гц) 8гб Win7x64
2) Удаляет все левые символы
3) Подключен словарь замен для ударений (пока работает кривенько в некоторых моментах из-за моего не знания python-а)
4)  WAV 16 бит 48kHz mono сразу перегоняется в MP3 с разбиением по 25 мин. Чтобы не занимать гигабайты места.

Делается для последующего бесплатного распространения.

Ищу питаниста чтобы сделать графический интерфейс. Один я пилить буду долго.
Буду рад если появится отдельная тема "Offline TTS на Python-e" Название проге пока не придумал.

Первые консольные компилированные  версии постараюсь скоро прикрепить. Хочу сделать по принципу "Все должно работать из коробки"
Прикрепления: BF_1_01.mp3 (1.25 Mb)


Сообщение отредактировал Pin240 - Вторник, 19.07.2022, 22:17
 
tonio_kДата: Вторник, 19.07.2022, 23:15 | Сообщение #3
Группа: Пользователи
Сообщений: 139
Статус: Offline
Цитата Pin240 ()
чтобы сделать графический интерфейс
Можно попробовать воспользоваться имеющимся функционалом программы Демагог первоначально программа заточена работать со скриптами lua, но с недавнего времени она поддерживает и скрипты Python. Так что можно настроить окна диалогов в Демагоге и далее запускать тот функционал, что у вас есть. Что бы понять что именно нужно, нужно посмотреть что у вас есть и что для корректной работы нужно. А там подумаем вдруг своими силами осилим? wink
 
Pin240Дата: Среда, 20.07.2022, 17:47 | Сообщение #4
Группа: Пользователи
Сообщений: 104
Статус: Offline
Демагог не пробовал, но возможно и под него подстроить, но хочется отдельный не зависимый продукт слепить^_^
Вот пока что скомпилированные версии для "попробовать" TTS_console на мыле.
Там где мало файлов при запуске нужно подождать, пока прога разархивируется во временные (tts_v3_to_dic_wav_mp3_segment_W7x64(baya))
Не мение 3 Гб свободного места.
Тот что  tts_console_V3 - таже начинка но не в одном файле,  но не требуется распаковка во временные. Запускается быстрей.
Важно! Файл должен быть в том же каталоге.
Это следующая до работка по списку

Сейчас  txt  обязательно в кодировке utf-8.  Времени пока нет слепить авто подгон по эту кодировку

Сразу скажу модель (model.pt)  не моя но она в открытом доступе от таварищей silero-models


Сообщение отредактировал Pin240 - Среда, 20.07.2022, 17:55
 
tonio_kДата: Четверг, 21.07.2022, 13:54 | Сообщение #5
Группа: Пользователи
Сообщений: 139
Статус: Offline
Цитата Pin240 ()
"попробовать" TTS_console на мыле.

попробовал - работает. В Линуксе через Wine запускается и аудио создается. ok

1)Все же хотелось бы увидеть консоль не в виде exe, а в виде соответстующего cмd файла - так будет удобнее передавать пути и параметры к обрабатываемому текстовому файлу при написании интерфейса в Демагоге. Словарями текст лучше обработать словарями из сборок Демагога - хотя бы словарями для Яндекса. Думаю, ошибок будет в разы меньше

2)Можно ли менять голоса на мужской/женский?

В целом, процесс синтеза очень долгий (о чем вы ранее и предупреждали). Я запускал в Линуксе через wine 100% загрузка ЦП. Попробую потом в Windows7 - должно отработать чуть быстрее.
 
Pin240Дата: Четверг, 21.07.2022, 17:25 | Сообщение #6
Группа: Пользователи
Сообщений: 104
Статус: Offline
Цитата tonio_k ()
2)Можно ли менять голоса на мужской/женский?

Да там есть по моему 5 или 4 голоса. Как то не задумывался о их переключении. Стараюсь допилить то что есть.
Цитата tonio_k ()
Я запускал в Линуксе через wine 100% загрузка ЦПУже
 Уже оптимизировал подачу текста (доработал  цикл) на одну партию. На ускорение это не сильно скажется, но как уже Вам писал, меньше нагрузит ОЗУ + меньше обращений к HDD.
Цитата tonio_k ()
а в виде соответстующего cмd файла
Думаю это можно, но на все нужно время. Пока все упирается в мои малые познания pythona и свободное время, но  основной  целью ставлю именно графический интерфейс.
Цитата tonio_k ()
хотя бы словарями для Яндекса
Я использовал именно его.
 
Pin240Дата: Суббота, 23.07.2022, 14:24 | Сообщение #7
Группа: Пользователи
Сообщений: 104
Статус: Offline
Сделал отдельную тему Picobook TTS Offline для обсуждения и пожеланий. Там же буду писать о новых версиях
 
MyTTS (форум) » ОБЩИЕ ВОПРОСЫ » Сведения, обсуждения, новости » Нейро-синтез речи своими руками
  • Страница 1 из 1
  • 1
Поиск:

Общение