Системы анализа текстовС самого начала развития кибернетики и вычислительной техники возникла идея автоматического создания, обработки и анализа текстов. На данный момент появилось достаточное количество инструментов, которые позволяют произвести этот самый анализ. С некоторыми из них мы и познакомимся в этой статье. Томита-парсер ЯндексТомита-парсер создан для извлечения структурированных данных из текста на естественном языке. Вычленение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет писать свои грамматики и добавлять словари для нужного языка. Исходный код проекта открыт и выложен на GitHub. ABBYY Intelligent Tagger SDKЭто инструментарий разработчика, который анализирует неструктурированную текстовую информацию и автоматически извлекает из нее именованные сущности (персоны, организации, даты и другие) и метаданные документов. Полученные данные можно использовать для совершенствования и автоматизации различных бизнес-задач, таких как поиск и анализ знаний, классификация и маршрутизация входящей информации, управление документацией и выявление конфиденциальных данных в ней. Технология Compreno – это универсальная лингвистическая платформа для приложений, решающих множество прикладных задач по обработке текстов на естественном языке, таких как:
RCORCO Fact Extractor SDK — инструмент компьютерного анализа текстовой информации на русском языке. Пакет предназначен для разработчиков информационно-аналитических и поисковых систем. Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка и предоставляет программный интерфейс для считывания результатов разбора и использования другими программами (напр., для визуализации полученных данных, построения отчетов и таблиц, организации поиска по объектам и т.д.). Результатом анализа текста являются выделенные из текста сущности – наименования организаций, персон, географические объекты, различные символьно-цифровые конструкции (такие как номера автомобилей или полисов страхования, адреса), классы сущностей; сеть синтактико-семантических отношений между сущностями текста; структуры данных, описывающие упомянутые в тексте события и факты. Библиотека универсальна: ее можно настроить на работу с разными предметными областями и даже с разными языками. Всевозможные надстройки над базовой библиотекой позволяют решать совершенно разные задачи: от нахождения информационных дублей (плагиата) и построения смыслового портрета документа, до обезличивания персональных данных в текстах или преобразования поисковых запросов. Apachi UIMA AnnotatorsПродукт предлагает множество аннотаторов, разработанных в соответствии со спецификацией UIMA. Открытый продукт, можно создавать свои аннотаторы. Есть репозиторий доступных аннотаторов. АОТРабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текстана русском языке. Начиная с 2002 года мы выкладывают разработки под лицензией LGPL. Eureka EngineВысокоскоростная система лингвистического анализа текстов модульного типа, позволяющая извлекать новые знания и факты из неструктурированных данных огромных объемов. В систему входят такие модули как:
Возможна обработка не только материалов СМИ, но и сообщений социальных сетей, форумов и блогов. Есть online-демо. ООО СемантикСпециализируется на обработке неструктурированных текстов. В настоящий момент курирует Pullenti и активно использует этот движок в своих проектах. На сайте есть ряд online-демонстраций. Возможные области применения
ixLabВ лаборатории ведется разработка проектов по нескольким направлениям:
DictumЛексический анализатор, который разбирает входной текст для получения на выходе набора размеченных текстовых объектов (токенов) из этого текста. Основным назначением модуля при обработке текстов на естественном языке является выявление текстовых объектов и фактов, таких как: персона, должность, спортивные команды, организации, районы, города, государства, географические объекты, даты, количественные показатели, высказывания персон, операционные системы, место работы SemanticAnalyzerКомпания SemanticAnalyzer занимается разработкой систем автоматической обработки естественных языков (Natural Language Processing) и разрабатыват кастомизированные решения под конкретные задачи. Эксперты компании специализируются в морфологическом и синтаксическом анализе, в анализе сентимента (тональности) высказываний, машинном переводе, машинном обучении и в распределённом полнотекстовом поиске: Apache Lucene, Apache Solr, Elasticsearch. Существует API для русского языка.
20.10.2016 |
популярные тэги
наука
интересно
новости
технологии
история
go
golang
программирование
it
искусственный интеллект
путешествия
природа
космос
ai
базы данных
медицина
science
анализ текстов
ии
text mining
робототехника
авто
музыка
роботы
интернет
нейронные сети
robots
space
вокруг света
postgresql
алгоритмы
гитара
животные
оружие
google
nosql
авиация
здоровье
техника
auto
|