20833, "Графематический анализ" Послано guest, 26-04-2012 13:18
«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных. Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам. Графематический анализ выполняет три функции: 1. отсечение стоп-слов в тексте; 2. разбиение данных на три потока; 3. индексация каждого потока.
Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных: - цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’); - аббревиатуры - названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’); - полные словоформы» http://www.computerra.ru/sgolub/671483/
|