Demagog TTS
|
|
flegont | Дата: Четверг, 22.07.2021, 01:25 | Сообщение #1 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Начало темы здесь (ссылка на архивную копию форума mytts.info)
(44,0 Mb) архивная копия начала текущей ветки с форума mytts.info - для офлайн просмотра и поиска по всем страницам
Скачать Demagog.zip
Домашняя страница
|
|
| |
alyuev | Дата: Среда, 02.08.2023, 11:32 | Сообщение #106 |
Группа: Пользователи
Сообщений: 7
Статус: Offline
| Теме личности. Неправильно – читает как Ё. Тьэме личности. Правильно. Личность, совершенная и изначальная. Неправильно – читает как Ё. Личность, соверш+энная и изначальная. Правильно. Личность, совершь+энная и изначальная. Правильно. Хотя тут ь не обязателен. Личность, совершеная и изначальная. Неправильно. Хотя его могут видеть не все. Неправильно – читает как Ё. Хотя его могут видеть не всьэ. Правильно.
|
|
| |
alyuev | Дата: Среда, 02.08.2023, 11:37 | Сообщение #107 |
Группа: Пользователи
Сообщений: 7
Статус: Offline
| И еще на заметку. Хотя корифеи наверняка об этом знают. Дефис "-" и длинное тире "–" - это разные вещи в плане паузы. Дефис вообще не делает паузу. Длинное тире – и пауза, и интонация корректные.
Сообщение отредактировал alyuev - Среда, 02.08.2023, 13:27 |
|
| |
flegont | Дата: Среда, 02.08.2023, 12:34 | Сообщение #108 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Полезные сведения, спасибо.
|
|
| |
DmitryV | Дата: Суббота, 05.08.2023, 16:13 | Сообщение #109 |
Группа: Пользователи
Сообщений: 2
Статус: Offline
| Здравствуйте, спасибо за реализацию синтеза на silero. Тут ещё bark tts вышла (демо тут), очень хорошо читает и много языковая, можно её также интегрировать в программу?
|
|
| |
flegont | Дата: Суббота, 05.08.2023, 17:57 | Сообщение #110 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Спасибо за ссылку. Посмотрел на гитхабе (пока очень бегло). Bark интересная система, построенная на совершенно другом принципе, нежели обычные нейросетевые модели синтеза речи. Я пока не готов ответить, насколько хорошо (или нет) это всё "монтируется" с Demagog'ом. Надо разобраться поглубже
|
|
| |
flegont | Дата: Понедельник, 07.08.2023, 08:29 | Сообщение #111 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Нашел... Интересная статья на Хабре - тестирование нейросетевой системы синтеза речи Bark. С примерами аудио и т.п. Автор: Alexandr Veysov (aka snakers4) Решил ли Bark синтез речи?
|
|
| |
flegont | Дата: Понедельник, 07.08.2023, 12:01 | Сообщение #112 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Я провел на онлайн-демо Bark небольшой эксперимент. Задавал короткие фразы на русском, и генерировал аудио для одной и той же фразы несколько раз. Bark ни разу не прочел одну и ту же фразу и одним и тем же голосом, одинаково! Меняется тембр, скорость, длительность пауз. Иногда модель добавляет в готовое аудио отсебятину, это т.н. "галлюцинация модели".
В принципе, так и должно быть. Как и положено типичному Generative Pretraining Transformer (GPT) - Bark не подставляет фонемы вместо букв, а генерирует аудио-ответ "с нуля", используя введенный короткий текст, как подсказку. С одной стороны - это хорошо. Реальный диктор тоже никогда не прочтет один и тот же текст одинаково. Иногда изменит интонацию, где-то добавит ироничное "хм..." и т.д. и т.п. С другой стороны... Bark - пока явно экспериментальная модель. Очень медленная, и огромного объема ~ 13 ГБ. Остается пожелать энтузиастам-разработчикам успехов в совершенствовании их творения.
|
|
| |
wasyaka | Дата: Вторник, 08.08.2023, 20:53 | Сообщение #113 |
Группа: Модераторы
Сообщений: 35
Статус: Offline
| Цитата alyuev ( ) Полезные сведения х32 словари обрабатывает быстрей чем х64, скрипты от Антона также
Сообщение отредактировал wasyaka - Вторник, 08.08.2023, 20:54 |
|
| |
flegont | Дата: Среда, 09.08.2023, 14:09 | Сообщение #114 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Замечал нечто подобное для Быстрого Алгоритма. Там, где 64x применил, к примеру, dic-словарь за 21 сек, там 32x управился за 19 сек. Это на игровом ноуте MSI Katana, i7, 16Gb RAM. Вроде, абсолютная разница невелика, но относительная - это 10-15%. И для слабых компов уже может быть ощутимо. При этом исходный код БА в версиях 32 и 64 - один и тот же. В Инете были сообщения от программистов о подобных проблемах при работе со строковыми переменными в Delphi, объяснялось тем, что 64х-компилятор в Delphi пока еще не очень хорошо оптимизирован. По сравнению с 32х - тот за многие годы вылизали до блеска. Ну, может, и правда, проблема в этом? Будущее покажет.
|
|
| |
Lecron | Дата: Вторник, 15.08.2023, 01:06 | Сообщение #115 |
Группа: Пользователи
Сообщений: 24
Статус: Offline
| Цитата flegont ( ) проблемах при работе со строковыми переменными Как-то, в рамках изучения языка, попробовал реализовать свой питонячий алгоритм (предположительно собрат вашего БА) на Rust. Удивился, что почти не получил ускорения. И также уткнулся во множественные выделения памяти на строки. Начал смотреть и оказалось, что можно практически не работать со строками. Один раз аллоцируется память при загрузке словаря и один раз для каждой строки текста. Дальше ссылочная работа с памятью. Разница получилась не 10-15%, а 6-8 раз. И кмк, ему стало плевать не только на разрядность, но даже на архитектуру.
|
|
| |
flegont | Дата: Среда, 16.08.2023, 14:27 | Сообщение #116 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Моя отдельная питоновская реализация БА работает в 2+ раза медленнее, чем БА на Delphi. Т.е. всё как положено - компилируемый язык исполняет алгоритм заметно шустрее интерпретируемого. Почему в дельфях БА на 64х чуть-чуть медленнее, чем он же на 32х - есть парочка гипотез, выберу время, проверю.
|
|
| |
alyuev | Дата: Четверг, 17.08.2023, 12:54 | Сообщение #117 |
Группа: Пользователи
Сообщений: 7
Статус: Offline
| Опубликовали новые быстрые модели - Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее / Хабр (habr.com)
|
|
| |
flegont | Дата: Пятница, 18.08.2023, 12:35 | Сообщение #118 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Спасибо, будем посмотреть...
|
|
| |
flegont | Дата: Пятница, 18.08.2023, 17:39 | Сообщение #119 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Стандартный тест - рассказ В. Журавлевой "Нахалка". Было: 1 мин. 18 сек на генерацию аудио. Стало: 39 сек. Ровно в 2 раза быстрее, но отнюдь не в 3-4, как обещали разработчики. И мне кажется (это м.б. субъективно), что качество аудио стало заметно хуже.
|
|
| |
flegont | Дата: Пятница, 18.08.2023, 18:56 | Сообщение #120 |
V.I.P.
Группа: Модераторы
Сообщений: 141
Статус: Offline
| Еще тест: Р.Киплинг "Отважные мореплаватели" Было: 24 мин 06 сек Стало: 09 мин 22 сек В 2.6 раза быстрее. Т.е. чем длиннее текст, тем больше выигрыш по времени...
|
|
| |