[ ]
Модератор форума: flegont  
MyTTS (форум) » Программы, использующие синтез речи в Windows » Demagog » Demagog TTS
Demagog TTS
flegontДата: Четверг, 22.07.2021, 01:25 | Сообщение #1
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Начало темы здесь (ссылка на архивную копию форума mytts.info)

 (44,0 Mb) архивная копия начала текущей ветки с форума mytts.info - для офлайн просмотра и поиска по всем страницам


 Скачать Demagog.zip

Домашняя страница
 
alyuevДата: Среда, 02.08.2023, 11:32 | Сообщение #106
Группа: Пользователи
Сообщений: 7
Статус: Offline
Теме личности. Неправильно – читает как Ё.
Тьэме личности. Правильно.
Личность, совершенная и изначальная. Неправильно – читает как Ё.
Личность, соверш+энная и изначальная. Правильно.
Личность, совершь+энная и изначальная. Правильно. Хотя тут ь не обязателен.
Личность, совершеная и изначальная. Неправильно.
Хотя его могут видеть не все. Неправильно – читает как Ё.
Хотя его могут видеть не всьэ. Правильно.
 
alyuevДата: Среда, 02.08.2023, 11:37 | Сообщение #107
Группа: Пользователи
Сообщений: 7
Статус: Offline
И еще на заметку. Хотя корифеи наверняка об этом знают. Дефис "-" и длинное тире "–" - это разные вещи в плане паузы. Дефис вообще не делает паузу. Длинное тире – и пауза, и интонация корректные.

Сообщение отредактировал alyuev - Среда, 02.08.2023, 13:27
 
flegontДата: Среда, 02.08.2023, 12:34 | Сообщение #108
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Полезные сведения, спасибо.
 
DmitryVДата: Суббота, 05.08.2023, 16:13 | Сообщение #109
Группа: Пользователи
Сообщений: 2
Статус: Offline
Здравствуйте, спасибо за реализацию синтеза на silero. Тут ещё bark tts вышла (демо тут), очень хорошо читает и много языковая, можно её также интегрировать в программу?
 
flegontДата: Суббота, 05.08.2023, 17:57 | Сообщение #110
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Спасибо за ссылку. Посмотрел на гитхабе (пока очень бегло). Bark интересная система, построенная на совершенно другом принципе, нежели обычные нейросетевые модели синтеза речи. Я пока не готов ответить, насколько хорошо (или нет) это всё "монтируется" с Demagog'ом. Надо разобраться поглубже  wink
 
flegontДата: Понедельник, 07.08.2023, 08:29 | Сообщение #111
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Нашел...
Интересная статья на Хабре - тестирование нейросетевой системы синтеза речи Bark.
С примерами аудио и т.п.
Автор: Alexandr Veysov (aka snakers4)
Решил ли Bark синтез речи?
 
flegontДата: Понедельник, 07.08.2023, 12:01 | Сообщение #112
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Я провел на онлайн-демо Bark небольшой эксперимент.
Задавал короткие фразы на русском, и генерировал аудио для одной и той же фразы несколько раз.
Bark ни разу не прочел одну и ту же фразу и одним и тем же голосом, одинаково!
Меняется тембр, скорость, длительность пауз. Иногда модель добавляет в готовое аудио отсебятину, это т.н. "галлюцинация модели".

В принципе, так и должно быть. Как и положено типичному Generative Pretraining Transformer (GPT) - Bark не подставляет фонемы вместо букв, а генерирует аудио-ответ "с нуля", используя введенный короткий текст, как подсказку.
С одной стороны - это хорошо. Реальный диктор тоже никогда не прочтет один и тот же текст одинаково. Иногда изменит интонацию, где-то добавит ироничное "хм..." и т.д. и т.п. 
С другой стороны... Bark - пока явно экспериментальная модель. Очень медленная, и огромного объема ~ 13 ГБ. Остается пожелать энтузиастам-разработчикам успехов в совершенствовании их творения.
 
wasyakaДата: Вторник, 08.08.2023, 20:53 | Сообщение #113
Группа: Модераторы
Сообщений: 35
Статус: Offline
Цитата alyuev ()
Полезные сведения
х32 словари обрабатывает быстрей чем х64, скрипты от Антона также


Сообщение отредактировал wasyaka - Вторник, 08.08.2023, 20:54
 
flegontДата: Среда, 09.08.2023, 14:09 | Сообщение #114
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Замечал нечто подобное для Быстрого Алгоритма.
Там, где 64x применил, к примеру, dic-словарь за 21 сек, там 32x управился за 19 сек.
Это на игровом ноуте MSI Katana, i7, 16Gb RAM.
Вроде, абсолютная разница невелика, но относительная - это 10-15%.
И для слабых компов уже может быть ощутимо.
При этом исходный код БА в версиях 32 и 64 - один и тот же.
В Инете были сообщения от программистов о подобных проблемах при работе со строковыми переменными в Delphi, объяснялось тем, что 64х-компилятор в Delphi пока еще не очень хорошо оптимизирован. По сравнению с 32х - тот за многие годы вылизали до блеска. Ну, может, и правда, проблема в этом? Будущее покажет.
 
LecronДата: Вторник, 15.08.2023, 01:06 | Сообщение #115
Группа: Пользователи
Сообщений: 17
Статус: Offline
Цитата flegont ()
проблемах при работе со строковыми переменными
Как-то, в рамках изучения языка, попробовал реализовать свой питонячий алгоритм (предположительно собрат вашего БА) на Rust. Удивился, что почти не получил ускорения. И также уткнулся во множественные выделения памяти на строки. Начал смотреть и оказалось, что можно практически не работать со строками. Один раз аллоцируется память при загрузке словаря и один раз для каждой строки текста. Дальше ссылочная работа с памятью. Разница получилась не 10-15%, а 6-8 раз. И кмк, ему стало плевать не только на разрядность, но даже на архитектуру.
 
flegontДата: Среда, 16.08.2023, 14:27 | Сообщение #116
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Моя отдельная питоновская реализация БА работает в 2+ раза медленнее, чем БА на Delphi. Т.е. всё как положено - компилируемый язык исполняет алгоритм заметно шустрее интерпретируемого.
Почему в дельфях БА на 64х чуть-чуть медленнее, чем он же на 32х - есть парочка гипотез,  выберу время, проверю.
 
alyuevДата: Четверг, 17.08.2023, 12:54 | Сообщение #117
Группа: Пользователи
Сообщений: 7
Статус: Offline
Опубликовали новые быстрые модели - Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее / Хабр (habr.com)
 
flegontДата: Пятница, 18.08.2023, 12:35 | Сообщение #118
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Спасибо, будем посмотреть...
 
flegontДата: Пятница, 18.08.2023, 17:39 | Сообщение #119
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Стандартный тест - рассказ В. Журавлевой "Нахалка".
Было: 1 мин. 18 сек на генерацию аудио.
Стало: 39 сек.
Ровно в 2 раза быстрее, но отнюдь не в 3-4, как обещали разработчики.
И мне кажется (это м.б. субъективно), что качество аудио стало заметно хуже.
 
flegontДата: Пятница, 18.08.2023, 18:56 | Сообщение #120
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
Еще тест: Р.Киплинг "Отважные мореплаватели"
Было: 24 мин 06 сек
Стало: 09 мин 22 сек
В 2.6 раза быстрее.
Т.е. чем длиннее текст, тем больше выигрыш по времени...
 
MyTTS (форум) » Программы, использующие синтез речи в Windows » Demagog » Demagog TTS
Поиск:

Общение