[ ]
  • Страница 1 из 2
  • 1
  • 2
  • »
MyTTS (форум) » ЛИНГВИСТИКА » Омонимия » Омографы
Омографы
AdminДата: Пятница, 30.07.2021, 02:01 | Сообщение #1
Группа: Администраторы
Сообщений: 140
Статус: Offline
Начало темы здесь (ссылка на архивную копию форума mytts.info)
 
tonio_kДата: Пятница, 11.02.2022, 16:43 | Сообщение #2
Группа: Пользователи
Сообщений: 139
Статус: Offline
Корпус слов с расставленными ударениями (только) для целевого омографа взятый из Национального корпуса русского языка 
Корпус собирался в автоматисческом режиме (wget+lua скрипт для Демагога) с удалением всех ударений кроме омографов.
 
tonio_kДата: Среда, 05.10.2022, 15:25 | Сообщение #3
Группа: Пользователи
Сообщений: 139
Статус: Offline
Корпус слов "Омографы" создан на основе более 48000 книг. Представляет собой более тысячи (по количеству омографов) текстовых файлов в ANSI кодировке в разрезе каждого отдельного слова-омографа. Название файла соответствует слову-омографу. Весь текстовый файл - это строки с найденными в книгах предложениями, которые содержат соответствующее слово-омограф.
Корпус слов "Омографы" может пригодиться составителям словарей для сбора статистики, выявления закономерностей и анализ целесообразности добавления правила в словари.
 
wasyakaДата: Четверг, 06.10.2022, 07:54 | Сообщение #4
Группа: Модераторы
Сообщений: 35
Статус: Offline
Цитата tonio_k ()
Корпус слов "Омографы"
ТРЕБУЕТ ПАРОЛЬ...
 
tonio_kДата: Четверг, 06.10.2022, 09:52 | Сообщение #5
Группа: Пользователи
Сообщений: 139
Статус: Offline
Цитата wasyaka ()
ТРЕБУЕТ ПАРОЛЬ
В описании в самом низу

UPD добавил в двух местах в описании и выделил цветом


Сообщение отредактировал tonio_k - Четверг, 06.10.2022, 10:19
 
tonio_kДата: Четверг, 06.10.2022, 19:38 | Сообщение #6
Группа: Пользователи
Сообщений: 139
Статус: Offline
wasyaka,  корректировка  файла "все.txt"  из корпуса слов. Отдельно скидываю, пока  перезаливаю весь Корпус слов Омографы.
Предыдущий  "все.txt"  был немного кривой - он не открывался через скрипт ===================ПОИСК ПО ШАБЛОНУ.lua
Этот скрипт должен был  открывать "все.txt" построчно (тем самым не перегружая память), а тут из-за кривизны весь файл выглядел как одна строка и перегружал память.
К стати, пока  идет сбор совпадений, если показалось, что найденного материала уже достаточно,  можно нажать Ctrl+P (или что там у вас останавливает работу скрипта) тогда скрипт остановится с выводом найденных строк  на момент прерывания


Сообщение отредактировал tonio_k - Четверг, 06.10.2022, 20:05
 
wasyakaДата: Воскресенье, 09.10.2022, 08:48 | Сообщение #7
Группа: Модераторы
Сообщений: 35
Статус: Offline
Цитата tonio_k ()
Корпус слов "Омографы" создан на основе более 48000 книг
Слишком много книг и соответственно - много одноразовых пар - слово + омограф...
А извлечь  омографы из пару тысяч книг? (был у тебя такой скрипт, но гавкнулся винт и...)
 
tonio_kДата: Воскресенье, 09.10.2022, 13:58 | Сообщение #8
Группа: Пользователи
Сообщений: 139
Статус: Offline
Цитата wasyaka ()
А извлечь  омографы из пару тысяч книг?
Так корпус слов это и есть основные омографы из 48 тысячи книг. Все основные омографы уже найдены и собраны каждый - в отдельный одноимённый файл.
Самое трудное было поиск дубликатов, но не дубликатов строк в книге (это искажает статистику повторяемости популярных выражений), а дубликатов книг, когда имеем несколько книг и одна из них является сборником-сериалом остальных маленьких книг или когда одна из книг является сборкой лучших книг, когда в одной книге несколько книг из разных источников. А особенный геморрой, это дубликаты разных переводов, когда совпадениий 20, 30 50 + строк. Вроде бы дубликат книги, а вроде и нет. Приходилось выставлять порг чувствительности.

Повторение пар в разрезе омграфа - идея в том, что бы была видна статистика частоты встречаемости этих повторений в тысячах книг. Например, создаём не стандартное правило dic. И сомневаемся, а имеет ли смысл его заносить в словари? Такое словосочетание больше нигде не встретиться или, все же, вероятность есть? А может этот поисковый запрос слишком поверхностный. И поменяй в одном, заденет там, где менять не надо? Для этого запускаем скрипт (ссылка на скрипт в комплекте ) указываем левую часть правила  в поисковом запросе и получаем сотни/тысячи совпадений или вообще ни одного на 48 тысяч книг.
Цитата wasyaka ()
Слишком много книг и соответственно - много одноразовых пар - слово + омограф
Корпус слов омографов. Это все, что вытащено из десятков тысяч книг. Вам осталось воспользоваться скриптом Демагога:
===================ПОИСК ПО ШАБЛОНУ.lua
С его помощью можно извлекать любые строки по любому из имеющихся способов (rex , lua, dic) и помещать их в окно статистики. Затем содержимое окна статистики перенести в другое окно, и по этому окну при помощи того же скрипта делать дополнительные уточняющие поиски по содержимому окна.
Если нужен корпус по какому-либо ещё слову, скажите, я сделаю. Только желательно накопить сразу список слов, а не по одному слову. Особенность работы скрипта по сбору корпуса слов, что увеличение количества искомых ключевых слов не влияет на скорость его работы. А крутится он всю ночь. Потом ещё склеивать отрезки.
Цитата wasyaka ()
(был у тебя такой скрипт, но гавкнулся винт и...)
Наверно, это тот самый скрипт, которым я этот корпус делал? Скину позже в личку

UPD скрипт поиск по шаблону ещё доработать надо. Но пока в целом работает


Сообщение отредактировал tonio_k - Воскресенье, 09.10.2022, 14:33
 
tonio_kДата: Среда, 12.10.2022, 18:11 | Сообщение #9
Группа: Пользователи
Сообщений: 139
Статус: Offline
Видео Пример использования корпуса слов "Омографы"
 
adelantadoДата: Вторник, 22.11.2022, 21:30 | Сообщение #10
Группа: Пользователи
Сообщений: 7
Статус: Offline
дополню по корпусу омографов.

вот тут я веду набор скриптов под bash для обработки книг и устранения омографов. Оно для гугло-ттс, потому что я им в данным момент пользуюсь.

Так вот там, в файлах mano-lc.txt, mano-uc.txt лежит список найденных омографов, примерно по 10К слов в каждом. Списки отдельные для слов с заглавной и строчной букв. То же самое для ё-омографов в файлах yomo-*, но с ними я особо не работаю отдельно и там довольно много экзотики и мусора из первоисточника. Это довольно полный список, но там не всё - регулярно натыкаюсь на что-то новое.
 
reborn00Дата: Среда, 08.02.2023, 13:43 | Сообщение #11
Группа: Пользователи
Сообщений: 3
Статус: Offline
Цитата adelantado ()
набор скриптов под bash

морфологический анализ текста по словарю - это интересная мысль. Сейчас решения rex и dic словарей в прогах демагог и балаболка похожи на бесконечный процесс добавления правил для каждого рядом стоящего слова или их окончаний. В вашем случае можно привязываться к падежам слов и их числу, что будет по идее иметь больший охват и более быструю работу. Но интересно как оно оказывается на практике.
 
tonio_kДата: Четверг, 09.03.2023, 18:42 | Сообщение #12
Группа: Пользователи
Сообщений: 139
Статус: Offline
Цитата reborn00 ()
можно привязываться к падежам слов и их числу, что будет по идее иметь больший охват и более быструю работу.
делали подобное на питоне.
Т.к русский язык не такой простой и многое зависит от контекста, в итоге получаем по сути такой же набор правил, что и правила замен в словарях, только написанный программным языком. Общая статистически распространённая база, может и программируется, а потом начинается добавление и рост простых словарей (исключений) с заменами по контексту.
 Все эти программные правила (подавляющее большинство ) можно прописать регулярными выражениями в привязке к окончаниям либо правилами замен dic со звездочками. И в итоге получаем тот самый:
Цитата reborn00 ()
бесконечный процесс добавления правил для каждого рядом стоящего слова или их окончаний.


И ещё один важный момент, "Программный" словарь доступен к пониманию далеко не каждому пользователю и не всякий научится/захочет его пополнять.
А простые словари - они и есть простые, переносимые, подлежащие анализу и пакетной оптимизации (кроме регулярок) и доступны к пониманию и освоению большинству пользователей.
 
adelantadoДата: Четверг, 16.03.2023, 08:24 | Сообщение #13
Группа: Пользователи
Сообщений: 7
Статус: Offline
Цитата tonio_k ()
делали подобное на питоне.
*делает. правда на питоне только часть, вытягивающая анализ из spacy, большая модель 3.5.0,  (она же наташа). т.е. повторение попытки Lecron, собственно его работой и навеяно. буквально вчера подключил spacy и для пары все/всё процент ошибок не менее 30%. Т.е. уйти от ручного написания правил не получится и потребуется тонкая настройка в том числе спуск не уровень отдельных случаев.

Пока все выглядит так:
- обработка на основе лексической информации из словаря Хагена. она неполная, например управления глаголов там нет, и по имеющимся признакам его слишком часто не определить. Для понимания, его можно проставить и я это делаю, но речь идет и миллионах словоформ, где невозможно по формальным признакам определить управление и нужно спускаться на смысловой уровень.. т.е. коррекции возможны только в рабочем порядке и только после нахождения ошибки - я не нейросеть и не НИИ.
- затем те самые пресловутые правила с бесконечными дополнениям
- и только потом лексическая информация из spacy

Однако, точно эта конструкция работает довольно быстро. Мой тестовый файл из 52К строк обрабатывается за 40 секунд и еще база spacy делается за 3 минуты, но это разовый запуск.

На самом деле, имеет смысл развивать разные инструменты с разной методикой и сравнивать их результаты. И желательно организовать обмен готовыми вылизанными человеком текстов со снятой омографией для отлова ошибок. А так, не думаю, что на данный момент "универсальная таблетка" возможна.
 
LecronДата: Воскресенье, 11.06.2023, 13:15 | Сообщение #14
Группа: Пользователи
Сообщений: 17
Статус: Offline
Цитата adelantado ()
пары все/всё процент ошибок не менее 30%
Правило все=все`|мест мн|опр мн| : всё|мест ед|опр ед|сущ мн|союз|нар|част|межд|
для Natasha дает исчезающе малое количество ошибок.

Для омографов скорее надо разделить на формы в пределах одной нормальной формы (словообразование), например бе`льма/бельма` и вроде бы разрешаемые морфологические, но произошедшие от разных слов, например СУЩ жр мн бе`лок / СУЩ мр ед бело`к.
С первыми Наташа справляется удовлетворительно, а со вторыми отвратно.
Впрочем и среди первых есть сложности с глаголами — переходной/непереходной, совершенный/несовершенный. А для вторых проще оперировать не склонениями в правилах, а нормальными формами контекста. Что опять приводит к программной обработке. Более того, контекст можно собрать тоже программно. Пара омографов существует не для всех словоформ. Например для бе`рет из пары бе`рет/берёт их можно собрать  для берета, берету, беретом. А для пресловутого за`мок/замо`к можно собирать по синонимам — дворец, особняк, поместье, задвижка, замочек, запор, засов.

P.S. Кстати, почему совершенный, а не совершЁнный? Во втором случае, понять суть признака намного проще. Она прям заложена в название.
 
adelantadoДата: Понедельник, 03.07.2023, 23:26 | Сообщение #15
Группа: Пользователи
Сообщений: 7
Статус: Offline
Цитата Lecron ()
Правило все=все`|мест мн|опр мн| : всё|мест ед|опр ед|сущ мн|союз|нар|част|межд|для Natasha дает исчезающе малое количество ошибок.

всё равно альтернативный инструмент нужен. иначе эти ошибки обнаружить можно будет только случайно.

это как с pymorphy2. Расставил базовые формы в словаре. Ошибок именно исчезающе малое количество, но есть нюанс.
"Пресловутая" пара "зАмок/замОк" потребовала правил с использованием базовой формы слова и обнаружилось масса ошибок. Процент мизерный, но попадается на каждом шагу.

"Замок" уже пару недель мусолю эту базу в 297К строк.  Пока довёл до 75%. Думаю, до 90% довести или до момента, где уже перестану находить однозначность. Лучше всего работать не через синонимы, а через глаголы и только потом через синонимы и устойчивые сочетания. Мне так показалось, по крайней мере.
 
MyTTS (форум) » ЛИНГВИСТИКА » Омонимия » Омографы
  • Страница 1 из 2
  • 1
  • 2
  • »
Поиск:

Общение