Texterra и анализ текстовTexterra - это технология для многоязычного интеллектуального анализа текста на основе оригинальных методов обработки текста, которые используют знания, извлеченные из пользовательского контента. Texterra предоставляет быстрое масштабируемое решение для интеллектуального анализа текста без необходимости дорогостоящей настройки. Разработку технологии Texterra начал ИСП РАН в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня «Текстерра» – ключевой компонент платформы анализа мнений пользователей в сети. Интерфейс «Текстерры» уже сегодня доступен на сайте ИСП РАН. Texterra может быть использована следующим образом: Таким образом, технология Texterra может представлять интерес для широкого круга разработчиков и исследователей, которые нуждаются в инструментах для обработки текста. Texterra состоит из двух сильно связанных частей:
Texterra использует Википедию в качестве основного источника знаний. В ней используется ссылочный граф Википедии, чтобы вычислить семантическую связанность между всеми концептами, описанными в Википедии. В результате, получается семантический граф с более чем 5 миллионов узлов (для сравнения энциклопедия Британика содержит 65000 терминов). Этот граф используется для интерпретации значений терминов и отношений между ними в текстовых документах. Texterra имеет собственную систему управления базой знаний, предназначенную для быстрого расчета семантической связанности между понятиями. Кроме обработки текста, семантическая связанность может быть полезной для различных приложений, например, для создания рекомендательных систем. Несмотря на большой размер, Википедия не содержит информацию о многих понятиях предметных областей. В целях повышения применимости технологии в системе есть несколько инструментов автоматического извлечения знаний. Эти инструменты позволяют извлекать базы знаний из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации. Инфраструктура для обработки естественного языка содержит алгоритмы для различных задач анализа текста. Полный список алгоритмов постоянно расширяется и включает решения для следующих задач:
Особое внимание уделено производительности технологии - в настоящее время Texterra является одним из самых быстрых решений в области. Кроме того, использование информации из Википедии позволяет легко расширить технологию Texterra для поддержки новых естественных языков. Текущая версия Texterra поддерживает английский, русский и корейский языки. Texterra может быть использована для различных задач обработки текста. Например, Texterra позволяет перейти от классического поиска по ключевым словам к семантическому поиску по значениям слов. Кроме того, наличие базы знаний для позволяет оценить семантическую связанность между понятиями, что помогает решать другие задачи из области информационного поиска и анализа данных, в том числе: расширение поисковых запросов; создание фасетных поисковых интерфейсов; создание рекомендательных систем, основанных на сравнении описаний рекомендованных предметов; анализ текстовых сообщений в социальных сетях и на форумах; разработку вопросно-ответных систем; автоматическое реферирование и аннотирование; создание диалоговых систем и т.д. Более подробную информацию можно найти в ИСП РАН. 18.03.2017 |
популярные тэги
наука
интересно
новости
технологии
история
go
golang
программирование
it
искусственный интеллект
путешествия
природа
космос
ai
базы данных
медицина
science
анализ текстов
ии
text mining
робототехника
авто
музыка
роботы
интернет
нейронные сети
robots
space
вокруг света
postgresql
алгоритмы
гитара
животные
оружие
google
nosql
авиация
здоровье
техника
auto
|