Распечатать страницу | Назад к предыдущей теме
Название форумаСвободная площадка
Название темы"Графематический анализ"
URL темыhttps://chronologia.org/dc/dcboard.php?az=show_topic&forum=264&topic_id=20827&mesg_id=20833
20833, "Графематический анализ"
Послано guest, 26-04-2012 13:18
«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных. Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.
Графематический анализ выполняет три функции:
1. отсечение стоп-слов в тексте;
2. разбиение данных на три потока;
3. индексация каждого потока.

Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:
- цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);
- аббревиатуры - названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);
- полные словоформы»
http://www.computerra.ru/sgolub/671483/