Определение тематики текста

С самого начала развития кибернетики и вычислительной техники возникла идея автоматического создания, обработки и анализа текстов.  Существует несколько подходов к решению этой задачи. Одни из них базируются на использовании статистических характеристик анализируемого текста, другие на обучении классификатора (например, нейронной сети).

Остановимся на первом из них. В простейшем случае алгоритм его работы может быть примерно следующим:

  • получаем на вход текст
  • выделяем последовательность слов
  • определяем нормальную форму для каждого слова в последовательности и сохраняем как атрибут текущей формы слова.
  • выполняем склейку слов, если они образуют предопределенные словосочетания (например, "космический корабль"), определенные в словаре
  • заменяем часть слов на обобщения по правилам вида: самолет до Анапы = самолет до города, здесь город выступает в роли обобщения.
  • для каждого элемента полученной последовательности слов/фраз определяем рубрику по словарю соответствия ( ученый -> наука, космический корабль -> космос, самолет до города -> путешествия и т.п.)
  • вычисляем количество вхождений слов/фраз для каждой рубрику
  • выбираем рубрики с максимальным числом вхождений, но чтобы число слов было не меньше,  например среднего значения.

На первый взгляд достаточно просто. Но у метода есть существенный недостатки:

  • необходимо иметь словарь соответствий форм слов и их нормальных форм
  • необходимо разметить нормальные формы слов и фразы по рубрикам

 

26.09.2017









 
архив

подписка