Дата: Понедельник, 17.04.2023, 08:06 | Сообщение #91
Группа: Пользователи
Сообщений: 14
Статус: Offline
спасибо. запустил на тест. в прошлой версии выходила постоянная ошибка в файле (см прицеп) файл fb2
Михайловский, Харников. Однажды в октябре 6. Ясный новый мир.fb2
Traceback (most recent call last): File "<torch_package_2>.multi_acc_v3_package.py", line 102, in process_ssml File "xml\etree\ElementTree.py", line 1349, in XML xml.etree.ElementTree.ParseError: mismatched tag: line 1, column 404
During handling of the above exception, another exception occurred:
Traceback (most recent call last): File "<string>", line 252, in <module> File "<torch_package_2>.multi_acc_v3_package.py", line 366, in save_wav File "<torch_package_2>.multi_acc_v3_package.py", line 316, in apply_tts File "<torch_package_2>.multi_acc_v3_package.py", line 61, in prepare_tts_model_input File "<torch_package_2>.multi_acc_v3_package.py", line 104, in process_ssml ValueError: Invalid XML format
Сообщение отредактировал serjufa - Понедельник, 17.04.2023, 08:07
P.S. Кстати. У скрипта Text to Speech.py, в обеих версиях, обнаружился еще один недостаток. Скрипт позволяет пользователю в настройках выбрать свой временный выходной каталог для готовых аудиофайлов. НО... не следует назначать каталог, уже содержащий какие-то нужные mp3-файлы. Ибо, если озвучивается текст, просто скопированный в окно Демагога, то у него нет имени файла, и отдельный подкаталог для него не создается. И в ходе генерации аудио будут удалены все "посторонние" mp3 в корне выходного каталога, а вместо них туда же лягут сгенерированные аудиофайлы. Так что, придется еще подправить скрипт.
Скрипт Text to Speech.py теперь при озвучке текста, не загруженного из файла, а помещенного в окно Демагога через Copy/Paste (или набранного вручную, и не сохраненного), и потому не имеющего имени, создает в выходном каталоге подкаталог с именем из 8 случайных латинских букв. И вся работа по генерации и сохранению готового аудио происходит в этом подкаталоге.
"У нас всё не доходят руки обновить наши публичные модели синтеза на самые супер-быстрые. Но в этом году, скорее всего, мы и до этого доберемся, если случится ряд благоприятных событий".
tonio_k, здравствуйте. Не подскажите, как в вашей сборке, если это возможно, изменить время паузы и после чего она срабатывает? Насколько я понял, пауза сейчас срабатывает на конец абзаца (0,6 сек) и на многоточие (1 сек). Я же хочу чтобы на многоточие пауза вообще не срабатывала (т.е. чтобы многоточие читалось, как точка или любой другой знак препинания), но срабатывала на конец абзаца (например, 2 сек) и на определенный символ (например, на ~~~ - 15 сек). Если вообще это возможно, то что и где нужно прописать?
Пробовал в файле 99.ПАУЗЫ@(phoneme).dic удалить строчки:
Пробовал в файле 99.ПАУЗЫ@(phoneme).dic удалить строчки:
удалять не надо! Надо менять цифры в миллисекундах, например ="100ms" Вместо "~~~" использовать какое нибудь уникальное слово типа: "ратлпиллрамлшр". т.к. есть вероятность, что этот символ вообще удаляется при чистке текста. Если нужно удлинить паузы, то тут есть некоторые ограничения от самого силеро (вроде 2000ms и есть предел? - надо уточнить). Лучше используйте двойную/тройную вставку слова: "уникальнвставкаабзаца" Есть ещё один момент: Длина текста уникальнвставкаабзаца равна длине тега <break time="2000ms"/> и при нарезке текста на куски разрезание происходит с учётом этого слова, если длина заменяемого текста на тэг будет короче длины самого тэга, то можно получить текстовый кусок, который, за счёт переизбытков тэгов, станет слишком длинный и силеро откажется озвучить этот отрезок, так как он по длине на много привысит 1000 символов. Силеро и 1000 символов не всегда проглатывает.
Дата: Понедельник, 19.06.2023, 15:05 | Сообщение #99
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Из голосов Яндекса мне очень нравился Филипп, еще в те времена, когда бесплатный демо был доступен без регистрации, и позволял за раз озвучивать 5000 символов. Потом это аттракцион неслыханной щедрости прикрыли. А платить (в модели v3) 16 коп за один запрос, при том что обрабатывает не более 250 символов за запрос, и не дольше 24 сек - да ну нафиг Мне интересно, сдержат ли Силеро свое обещание, выложить в свободный доступ некоторые свои усовершенствованные, (и более скоростные) модели синтеза речи? Или они уже считают свои рекламные цели достигнутыми?
Здравствуйте. Подскажите, есть ли возможность изменять для Силеро произношение буквы Е? Например, иногда слово "все" озвучивает как "всё": вот тут "хотя не всЕ его могут видеть" - читает как "Е", а в таком порядке "хотя его могут видеть не всЁ" - как "Ё".
Можно ли принудительно сказать движку, что здесь нужно именно "Е", а не "Ё"?
Так, например, слово "темы" было озвучено, как "тЁмы"... А в фразе "личность, совершенная и изначальная" - получилось "совершЁнная"...
Сообщение отредактировал alyuev - Среда, 02.08.2023, 00:38
тут возможны два варианта: 1) ложное срабатывание словаря или необходимо добавить новое правило в словарь 2) сама Силеро импровизирует исходя из внутренних не известных нам нейроправил (что тоже, скорее всего, можно откорректировать добавлением нового правила в словарь) И на всякий случай, уточните, какой сборкой вы пользуетесь? Сборки могут немного отличается друг от друга набором правил и порядком применения правил в словарях
Сообщение отредактировал tonio_k - Вторник, 01.08.2023, 21:16
Это Силеро чудит. Со словом "темы" воспроизвести не удалось, читает нормально: тЕмы. Наверное фраза некая специфическая должна быть. А вот "личность, совершенная и изначальная" - тут труба полнейшая. Хоть ставь ударение соверш+енная, хоть не ставь, читает: совершЁнная. У Силеро есть опции автоматического проставления ударений и буквы Ё - я попробовал в скрипте их отключить. Эксперимент не помог - все равно ставит автоматом букву Ё Так что, словарями это дело не поправить. Победил, только убрав двойную "нн": совершеная - прочлось: совершЕнная - даже двойная "нн" слышна Так модель обучена... не совсем корректно, получается.
Силеровцы недавно похвастались, что их модели уже усовершенствованы, стали очень скоростными и вообще... НО, дескать, нет времени выложить их в открытый доступ. Лукавят, похоже.