Корпус слов "Омографы"
05.10.2022, 15:15

Корпус слов "Омографы" создан на основе более 48000 книг. Представляет собой более тысячи (по количеству омографов) текстовых файлов в ANSI кодировке в разрезе каждого отдельного слова-омографа. Название файла соответствует слову-омографу. Весь файл - это строки с найденными в книгах предложениями, которые содержат соответствующее слово-омограф. Текст в предложениях никак не размечен (представлен в виде "как есть", т.е. как в оригинальном тексте из книги)
Корпус слов "Омографы" может пригодиться составителям словарей для сбора статистики, выявления закономерностей и анализ целесообразности добавления правила в словарь.

т.к. некоторые файлы большие по размеру, то открывать файлы лучше в Демагоге х64 или осуществлять "прстрочный" поиск по файлу (без его открытия)  при помощи скрипта для Демагога:
===================ПОИСК ПО ШАБЛОНУ.lua

В распакованном виде Корпус слов "Омографы" занимает 16,8 GiB

 

 

 

Категория: Download | Добавил: tonio_k | Теги: КОРПУС, анализ, частота повторений, слов, корпус слов, исследование языка, Статистика, омографы, словари, создание правил
Просмотров: 256 | Загрузок: 16 | Рейтинг: 5.0/1
Всего комментариев: 0
avatar