software
  • формат exe
  • размер 2,80 МБ
  • добавлен 29 ноября 2013 г.
Word Tabulator. v3.5
Корпусный менеджер для самостоятельной разработки корпусов и поиска в них.
Сергей Логичев, 2012.
Программа WordTabulator предназначена для анализа текстов в среде MS Windows. С ее помощью формируется индекс элементов, встречающихся в заданном множестве текстов. В качестве искомых элементов могут быть словоформы, N-граммы (словосочетания заданной размерности) или фразы (синтагмы). Программа может обрабатывать тексты как в обычной двух-байтовой кодировке, так и в многобайтовой UTF-
8. Изначально программа разрабатывалась исключительно для русскоязычных текстов, однако может быть успешно использована и для других языков, например, украинского, исландского или шведского. Определение языка входных текстов в программе достаточно условное. Грубо говоря, это кириллица и не кириллица.
Программа правильно обрабатывает кириллицу с учетом упраздненных букв русского языка І, Ї (и), Ѣ (ять), Ѳ (фита), Ѵ (ижица), входящих во второе издание словаря В.И.Даля, изданного в 1880-1882 гг. Для европейских или скандинавских языков программа правильно обрабатывает диакритические символы. А текст в UTF-8 может содержать вообще любые разрешенные символы - хоть древне-египетские или китайские иероглифы.
Входные тексты задаются совокупностью обычных текстовых файлов или документов в формате HTML/XML/SGML. В последнем случае программа умеет отделять полезный контент от используемой разметки. Более того, можно обработать только определенный контент, находящийся внутри заданных тегов. Или наоборот пропустить этот контент при обработке.
Дополнительной возможностью является анализ двух совокупностей текстов, которые можно сравнивать на общность или различие по составу исследуемых элементов.
Для русскоязычных текстов анализ может быть ограничен заданным списком слов в нормальной форме, которые ищутся с учетом морфологии русского языка во всех падежных окончаниях. Поиск необходимых элементов может также задаваться с помощью регулярных выражений.
Выходным результатом программы является файл (или файлы), содержащий индекс найденных текстовых элементов. Этот индекс может быть в формате HTML, с указанием для каждого элемента частоты встречаемости и ссылок на исходный контекст, или в виде простого списка в обычном текстовом файле. Список может быть упорядочен в алфавитном порядке, по значению или по частоте встречаемости элементов.
Теоретически на размеры обрабатываемой совокупности текстов никаких ограничений не накладывается. Все дело в требуемом на обработку времени. Например, собрание сочинений Ф.М.Достоевского в 15 томах на обычном настольном компьютере Pentium Dual Core 2.8 ГГц с 2 Гб оперативной памяти обрабатывается за 8 минут. Исходные тексты занимают на диске около 60 Мб, а размер выходного индекса составляет около 200 тысяч словоформ.
Программа WordTabulator принадлежит к категории бесплатного программного обеспечения с открытым кодом.