Texterra и анализ текстов

Texterra - это технология для многоязычного интеллектуального анализа текста на основе оригинальных методов обработки текста, которые используют знания, извлеченные из пользовательского контента. Texterra предоставляет быстрое масштабируемое решение для интеллектуального анализа текста без необходимости дорогостоящей настройки.

Разработку технологии Texterra начал ИСП РАН в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня «Текстерра» – ключевой компонент платформы анализа мнений пользователей в сети. Интерфейс «Текстерры» уже сегодня доступен на сайте ИСП РАН.

Texterra может быть использована следующим образом:
•    как расширяемая основа для приложений, которым необходимо анализировать текст;
•    как  библиотека или расширяемая инфраструктура для анализа текстов;
•    функции системы Texterra доступны через API

Таким образом, технология Texterra может представлять интерес для широкого круга разработчиков и исследователей, которые нуждаются в инструментах для обработки текста.

Texterra состоит из двух сильно связанных частей:

  • Инструментов для управления знаниями
  • Инфраструктуры для обработки естественного языка

Texterra использует Википедию в качестве основного источника знаний. В ней используется ссылочный граф Википедии, чтобы вычислить семантическую связанность между всеми концептами, описанными в Википедии. В результате, получается семантический граф с более чем 5 миллионов узлов (для сравнения энциклопедия Британика содержит 65000 терминов). Этот граф используется для интерпретации значений терминов и отношений между ними в текстовых документах.

Texterra имеет собственную систему управления базой знаний, предназначенную для быстрого расчета семантической связанности между понятиями. Кроме обработки текста, семантическая связанность может быть полезной для различных приложений, например, для создания рекомендательных систем.

Несмотря на большой размер, Википедия не содержит информацию о многих понятиях предметных областей. В целях повышения применимости технологии в системе есть несколько инструментов автоматического извлечения знаний. Эти инструменты позволяют извлекать базы знаний из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации.

Инфраструктура для обработки естественного языка содержит алгоритмы для различных задач анализа текста. Полный список алгоритмов постоянно расширяется и включает решения для следующих задач:

  • Определение языка.
  • Определение границ предложений.
  • Разбиение на лексемы.
  • Определение частей речи.
  • Исправление ошибок в правописании.
  • Извлечение и классификация именованных сущностей.
  • Анализ тональности текста.
  • Поиск составных терминов.
  • Разрешение лексической многозначности.
  • Определение ключевых понятий и др.

Особое внимание уделено производительности технологии - в настоящее время Texterra является одним из самых быстрых решений в области. Кроме того, использование информации из Википедии позволяет легко расширить технологию Texterra для поддержки новых естественных языков. Текущая версия Texterra поддерживает английский, русский и корейский языки.

Texterra может быть использована для различных задач обработки текста. Например, Texterra позволяет перейти от классического поиска по ключевым словам к семантическому поиску по значениям слов. Кроме того, наличие базы знаний для позволяет оценить семантическую связанность между понятиями, что помогает решать другие задачи из области информационного поиска и анализа данных, в том числе: расширение поисковых запросов; создание фасетных поисковых интерфейсов; создание рекомендательных систем, основанных на сравнении описаний рекомендованных предметов; анализ текстовых сообщений в социальных сетях и на форумах; разработку вопросно-ответных систем; автоматическое реферирование и аннотирование; создание диалоговых систем и т.д.

Более подробную информацию можно найти в ИСП РАН.
 

18.03.2017









 
архив

подписка