Системы анализа текстов

С самого начала развития кибернетики и вычислительной техники возникла идея автоматического создания, обработки и анализа текстов. На данный момент появилось достаточное количество инструментов, которые позволяют произвести этот самый анализ. С некоторыми из них мы и познакомимся в этой статье.

Томита-парсер Яндекс

Томита-парсер создан для извлечения структурированных данных из текста на естественном языке. Вычленение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет писать свои грамматики и добавлять словари для нужного языка. Исходный код проекта открыт и выложен на GitHub.

ABBYY Intelligent Tagger SDK 

Это инструментарий разработчика, который анализирует неструктурированную текстовую информацию и автоматически извлекает из нее именованные сущности (персоны, организации, даты и другие) и метаданные документов. Полученные данные можно использовать для совершенствования и автоматизации различных бизнес-задач, таких как поиск и анализ знаний, классификация и маршрутизация входящей информации, управление документацией и выявление конфиденциальных данных в ней. Технология Compreno – это универсальная лингвистическая платформа для приложений, решающих множество прикладных задач по обработке текстов на естественном языке, таких как:

  • Письменный и устный перевод с одного языка на другой;
  • Интеллектуальный поиск (Поиск по смыслу, а не по ключевым словам, Извлечение фактов и связей между объектами поиска, в т.ч. для конкурентной разведки, и т.д.);
  • Многоязычный поиск;
  • Классификация и фильтрация документов

RCO

RCO Fact Extractor SDK — инструмент компьютерного анализа текстовой информации на русском языке. Пакет предназначен для разработчиков информационно-аналитических и поисковых систем. Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка и предоставляет программный интерфейс для считывания результатов разбора и использования другими программами (напр., для визуализации полученных данных, построения отчетов и таблиц, организации поиска по объектам и т.д.).

Результатом анализа текста являются выделенные из текста сущности – наименования организаций, персон, географические объекты, различные символьно-цифровые конструкции (такие как номера автомобилей или полисов страхования, адреса), классы сущностей; сеть синтактико-семантических отношений между сущностями текста; структуры данных, описывающие упомянутые в тексте события и факты.

Библиотека универсальна: ее можно настроить на работу с разными предметными областями и даже с разными языками. Всевозможные надстройки над базовой библиотекой позволяют решать совершенно разные задачи: от нахождения информационных дублей (плагиата) и построения смыслового портрета документа, до обезличивания персональных данных в текстах или преобразования поисковых запросов.

Apachi UIMA Annotators

Продукт предлагает множество аннотаторов, разработанных в соответствии со спецификацией UIMA. Открытый продукт, можно создавать свои аннотаторы. Есть репозиторий доступных аннотаторов.

АОТ

Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текстана  русском языке. Начиная с 2002 года мы выкладывают разработки под лицензией LGPL.

Eureka Engine

Высокоскоростная система лингвистического анализа текстов модульного типа, позволяющая извлекать новые знания и факты из неструктурированных данных огромных объемов. В систему входят такие модули как:

  • Определение языка сообщения (24 языка, относящихся к разным языковым семьям);
  • Автоматическое определение тональности документа (АОТ) для русского языка;
  • Определение тематики (автоклассификация) для русского языка;
  • Выделение именованной и имен собственных (NER) для русского языка (подключение английского в ближайшее время); Нормализация слов (русский язык);
  • Разметка частей речи (морфоанализ) для русского языка.

Возможна обработка не только материалов СМИ, но и сообщений социальных сетей, форумов и блогов. Есть online-демо.

ООО Семантик

Специализируется на обработке неструктурированных текстов. В настоящий момент курирует Pullenti и активно использует этот движок в своих проектах. На сайте есть ряд online-демонстраций. Возможные области применения 

  • Выделение из текстов объектов и взаимосвязей для автоматического заполнения базы данных (структурирование).
  • Извлечение из текстов объектов и фактов для аналитической системы.
  • Поиск плагиата.
  • Поиск в текстах специфической информации.
  • Классификация текстов.
  • Автоматическое аннотирование.
  • Автоматическое построение словарей и онтологий.

ixLab

В лаборатории ведется разработка проектов по нескольким направлениям:

  • Извлечение информации из текстов.
  • Морфологический анализ текстов.
  • Орфографический анализ текстов.
  • Машинное обучение для задачи извлечения информации.
  • Нечеткий поиск и индексирование текстов.
  • Снятие неоднозначности извлечения.

Dictum

Лексический анализатор, который разбирает входной текст для получения на выходе набора размеченных текстовых объектов (токенов) из этого текста. Основным назначением модуля при обработке текстов на естественном языке является выявление текстовых объектов и фактов, таких как: персона, должность, спортивные команды, организации, районы, города, государства, географические объекты, даты, количественные показатели, высказывания персон, операционные системы, место работы

SemanticAnalyzer

Компания SemanticAnalyzer занимается разработкой систем автоматической обработки естественных языков (Natural Language Processing) и  разрабатыват кастомизированные решения под конкретные задачи. Эксперты компании специализируются в морфологическом и синтаксическом анализе, в анализе сентимента (тональности) высказываний, машинном переводе, машинном обучении и в распределённом полнотекстовом поиске: Apache Lucene, Apache Solr, Elasticsearch. Существует API для русского языка.

 

Тэги: text mining анализ текстов


 


 
архив

подписка