[ ]
  • Страница 2 из 2
  • «
  • 1
  • 2
MyTTS (форум) » ЛИНГВИСТИКА » Омонимия » Омографы
Омографы
tonio_kДата: Вторник, 04.07.2023, 00:16 | Сообщение #16
Группа: Пользователи
Сообщений: 139
Статус: Offline
Цитата adelantado ()
Замок" уже пару недель мусолю эту базу

Было бы интересно получить корпус слов с расставленными ударениями для изучения... senile
Собственно, имея такой корпус, я так предполагаю, можно и собственные словари замен "обучить" без всяких нейросетей пакетно выявляя закономерности и пакетно исправляя, добавляя правила в словари.


Сообщение отредактировал tonio_k - Вторник, 04.07.2023, 00:17
 
adelantadoДата: Вторник, 04.07.2023, 07:06 | Сообщение #17
Группа: Пользователи
Сообщений: 7
Статус: Offline
Цитата tonio_k ()
Было бы интересно получить корпус слов с расставленными ударениями для изучения
собственно, для чего и весь сыр-бор. конечно. поставлю на обработку сегодня и выложу

но оно "в процессе" и текущее состояние можно всегда посмотреть самостоятельно командой

Код
./momo.sh -sg замок.txt x4707


файл не обязательно, но желательно привести к виду fb2, т.е. поставить тэги <p>строка</p> . некоторые правила к этому чувствительны.
И ещё желательно ёфицировать.

Код
./yofik.sh -gg замок.txt
./momo.sh -se замок.txt
./stripper.sh замок.txt -sa
это только ёфикация однозначных и все/всё, последняя команда удаляет все ударения и специфические служебные символы.


Сообщение отредактировал adelantado - Вторник, 04.07.2023, 08:19
 
adelantadoДата: Вторник, 04.07.2023, 22:15 | Сообщение #18
Группа: Пользователи
Сообщений: 7
Статус: Offline
вот промежуточная версия для "замок".
 
MyTTS (форум) » ЛИНГВИСТИКА » Омонимия » Омографы
  • Страница 2 из 2
  • «
  • 1
  • 2
Поиск:

Общение