Несколько слов о Text Mining

Пожалуй, никто не станет спорить с тем фактом, что Интернет сегодня является наиболее масштабным хранилищем знаний. К сожалению или к счастью, знания эти далеко не всегда хранятся в удобной для понимания компьютером форме; чаще всего это, конечно же, тексты, предназначенные для чтения человеком.

Технология Text Mining представляет собой одну из разновидностей методов Data Mining и подразумевает процессы извлечения знаний и высококачественной информации из текстовых массивов. Это обычно происходит путем выявления шаблонов и тенденций с помощью инструментов статистического изучения шаблонов.

Такая технология глубинного анализа текстов способна обрабатывать большие объемы неструктурированной информации и выявлять из них только самое значимое, чтобы человеку не приходилось самому тратить время на добычу ценных знаний вручную.

Результаты Text Mining могут быть использованы для математического прогнозирования, анализа социальной обстановки, анализа рынков и т.д.

По сути, анализ текстов и Text Mining – это набор лингвистических, статистических техник, а также техник машинного самообучения, которые способны моделировать и структурировать информационный контент и текстовые источники в целях бизнес-аналитики, анализа данных, исследований. Эти технологии, отдельно либо совместно с другими средствами, используются в корпоративной практике управления знаниями для решения тех или иных задач бизнеса. Известно, что около восьмидесяти процентов важной информации существует в неструктурированной текстовой форме. Text Mining позволяют извлечь из этих данных ценные знания – факты, бизнес-правила, взаимосвязи – которые невозможно получить какими-либо иными автоматизированными средствами.

К основным методам текстового анализа относятся:

Классификация – необходима для того, чтобы построить некие правила, по которым распределяются по классам. Особенность классификации в контексте text mining – типично большое количество объектов и атрибутов. Это означает, что должны быть предусмотрены механизмы оптимизации самого процесса классификации, и эти механизмы должны быть интеллектуальными.

Кластеризация базируется на признаках документов, которые использует лингвистические и математические методы без использования определенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных.

Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную.

Кластеризация применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.

Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации.

Извлечение фактов из текста с целью улучшения классификации, поиска и кластеризации.

суммаризация (summarization)

формирования ответов на запросы состоит из трех этапов:

  1. Поиск информации в документе для отбора тех частей текста, которые потенциально могут содержать ответ.
  2. Фильтрация фраз, похожих на ожидаемый ответ. На этом этапе все зависит от вопроса: например, если он начинается со слова «где», фильтр выделит, в частности, фразы, где содержатся географические названия.
  3. Поиск правильного ответа. При помощи вспомогательных методов выводится ответ на запрос.

тематическое индексирование (thematic indexing). Под термином «индексирование» первоначально понималось присвоение документам/запросам тематических индексов, отражающих некие атрибуты их классификации (по принципу библиотечных каталогов). С развитием направление приобрело смысл процесса своеобразного «перевода» описаний документов/запросов с естественного языка на формализованный, когда эти описания представляют собой перечни ключевых слов и словосочетаний, отражающие их тематическое содержание. Такая форма получила называние поискового образа описаний; при этом поисковый образ запроса представляет собой логическую конструкцию, где слова и словосочетания соединены при помощи логических и синтаксических операторов.

поиск по ключевым словам (keyword searching), по сути, использует результаты тематического индексирования для поиска документов, отвечающих указанным требованиям, в частности, содержащих указанные пользователем ключевые слова. Ключевое слово в text mining определяется как набор слов, отражающих и представляющих содержимое текста. Существует множество лингвистических и математических методов, позволяющих находить ключевые слова; наиболее распространенный из них – анализ частоты появления слов в тексте.

Тэги: data mining text mining анализ текстов


 


 
архив

подписка