Text Mining: морфологический анализ

Морфологический анализ одна из важных составляющих процесса предварительной обработки текстового анализа (Text Mining), который включает в себя следующие основные этапы: поиск информации; предварительная обработка информации; извлечение информации; применение методов Text Mining; интерпретация результатов .

Во время морфологического анализа на входе есть обычный текст. Основными задачами морфологического анализа являются: 

  • выделение из текста словоформ; 

  • распознавание слов или их сочетаний; 

  • нормализация словоформ (приведение слова к словарному виду); 

  • распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). 

Трудность морфологического анализа обусловлена одним из свойств любого языка — его изменяемостью. Условно весь лексический состав языка можно разделить на две части. Первая представляет собой некую совокупность слов (лексикон), которая сформировалась в ходе развития языка. Она обладает достаточной устойчивостью и является базой для создания текстов письменной и устной речи. 

Второй лексический пласт характеризуется большей подвижностью. Он включает новые слова, которые существуют в языке сравнительно недавно, например имена собственные и словообразовательные варианты уже известных слов (гаджет и т.д.). Поэтому важно иметь алгоритмы, встроенные в анализатор и рассчитанные на обработку как известных, так и новых слов. 

Существуют два основных подхода для решения этой задачи: 

  • Морфологический анализ на базе словарей 

  • Морфологический анализ без словарей 

Если использовать анализ с применением словарей, тогда: 

  • Словари  дадут максимальную информацию по форме известного слова 

  • На реальных текстах будут сбои из-за наличия опечаток 

  • Возникнет проблема полноты словарей (все возможные имена, фамилии, новые слова и т.д.) 

Методы без словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. Их можно поделить на: 

  • Вероятностно-статические методы (требуют большой выборки) 

  • Лексиконы основ и суффиксов (большой объем лексиконов и методы их получения) 

Важным аспектом является возможность появления в тексте искаженных слов. Можно выделить две ситуации, когда пользователь искажает написание слов. В первом случае он непреднамеренно, по неосмотрительности допускает опечатки. Это часто происходит при быстром наборе текста электронного письма или когда сообщения посылаются через систему обмена мгновенными сообщениями (Telegram, WhatsApp, Skype и т.д.). Во втором случае пользователь умышленно видоизменяет привычное написание слов. 

Под нечетким поиском также подразумевается детектирование слов, даже если буквы в них переставлены местами или латинские буквы набраны вместо эквивалентных по начертанию русских («п» и «n»). Кроме того, в словах могут быть допущены орфографические ошибки. 

В лексиконе любого языка есть множество составных слов или конструкций, использующих знаки препинания: переносы, дефисы, апострофы («бизнес-план», и т.д.). Для обработки составных конструкций применяется метод склейки. Для каждого символа, помеченного как разделитель составных выражений, производится анализ предыдущего и последующего слов и информации о пробелах слева и справа от него. После этого, если информация о пробелах и языке соседних слов позволяет сделать предположение о составной конструкции, строится составное слово. 

Существует еще одна важная проблема, с которой сталкиваются во время морфологического анализа — это проблема морфологической омонимии. Проиллюстрируем ее на примерах: "На завод привезли стекло" и "И масло стекло на пол". Для решения этой проблемы может быть использован вероятностный подход, нейронные сети или точечные значения из словарей. 

Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста результаты морфологического анализа передаются в блок синтаксической обработки.

18.08.2016









 
архив

подписка