Омографы - Страница 2

[ ]

Страница 2 из 2
«
1
2

MyTTS (форум) » ЛИНГВИСТИКА » Омонимия » Омографы

Омографы

tonio_k

Дата: Вторник, 04.07.2023, 00:16 | Сообщение #16

Группа: Пользователи

Сообщений: 139

Статус: Offline

Цитата adelantado (

)

Замок" уже пару недель мусолю эту базу

Было бы интересно получить корпус слов с расставленными ударениями для изучения... senile

Собственно, имея такой корпус, я так предполагаю, можно и собственные словари замен "обучить" без всяких нейросетей пакетно выявляя закономерности и пакетно исправляя, добавляя правила в словари.

Сообщение отредактировал tonio_k - Вторник, 04.07.2023, 00:17

adelantado

Дата: Вторник, 04.07.2023, 07:06 | Сообщение #17

Группа: Пользователи

Сообщений: 7

Статус: Offline

Цитата tonio_k (

)

Было бы интересно получить корпус слов с расставленными ударениями для изучения

собственно, для чего и весь сыр-бор. конечно. поставлю на обработку сегодня и выложу

но оно "в процессе" и текущее состояние можно всегда посмотреть самостоятельно командой

Код

./momo.sh -sg замок.txt x4707

файл не обязательно, но желательно привести к виду fb2, т.е. поставить тэги <p>строка</p> . некоторые правила к этому чувствительны.
И ещё желательно ёфицировать.

Код

./yofik.sh -gg замок.txt
./momo.sh -se замок.txt
./stripper.sh замок.txt -sa

это только ёфикация однозначных и все/всё, последняя команда удаляет все ударения и специфические служебные символы.

Сообщение отредактировал adelantado - Вторник, 04.07.2023, 08:19

adelantado

Дата: Вторник, 04.07.2023, 22:15 | Сообщение #18

Группа: Пользователи

Сообщений: 7

Статус: Offline

вот промежуточная версия для "замок".

Lecron

Дата: Воскресенье, 12.05.2024, 21:37 | Сообщение #19

Группа: Пользователи

Сообщений: 19

Статус: Offline

Основная проблема разрешения омографов, отсутствие корпусов. Но ведь их можно взять из смысла омографов.
1. Указываем для каждой формы синонимы (в нормальной форме) характеризующую каждый из смыслов/форм.
берёт: брать, класть, забирать
бере`т: беретом, пилотка, кепка, шапка
если нормальная форма является смысловым омографом "берет", можно указать любую другую "беретом".
2. Утилитой PyMorphy получаем словоформы для каждого из синонимов.
3. Извлекаем предложения из корпуса текстов. Да, их будет много, релевантность низкая, поэтому...
4. Сейчас существует множество языковых моделей. Берем способную векторизовать текст (назначить ему последовательность чисел, с высокой точностью характеризующую смысл). Чтобы не сбивать его с толку, берем сравнительно небольшой контекст, окружающий целевое слово (у меня 4/3 для лево/право).
5. Также векторизуем контекст собственно омографа и для каждого предложения с ним, ищем похожие предложения из синонимичных.
6. Сортируем, отбираем самые лучшие и вуаля... можно анализировать.

В машинном обучении я чайник. Если кто-то заинтересуется и превратит корпус в рабочую модель, можно поработать над составлением корпусов других омографов.

Прикрепления: beret_trn.zip (20.0 Kb)

MyTTS (форум) » ЛИНГВИСТИКА » Омонимия » Омографы

Страница 2 из 2
«
1
2