Синтез текста и цепи Маркова

Генерация текста - это одно из направлений искусственного интеллекта, разработкой которого занимаются более 50 лет. На данный момент эти проблема достаточно интересна для вебмастеров и спамеров по понятным причинам. Существуют три основных подхода к генерации текста: cинонимизация,размножние и цепи Маркова.

О генераторах текста на базе цепей Маркова мы и поговорим сегодня. Цепью Маркова с дискретным временем называется последовательность случайных величин, для которой условное распределение каждой величины зависит только от значения предыдущих величин.

Цепь Маркова описывается множеством значений случайных величин, которое называется пространством состояний; а также матрицей переходных вероятностей между состояниями. Матрица переходных состояний определяет вероятность перехода в следующее состояние, с учетом текущего. В случае если матрица переходных вероятностей не зависит от шага, она называется однородной, именно однородные матрицы чаще всего применяются для порождения текстов.

Когда цепи Маркова применяются для порождения искусственных текстов, пространством состояний становится множество всех слов и знаков препинания. Переходная матрица обычно формируется по некоторому множеству текстов- образцов. По образцу оценивается вероятность порождения нового слова после последовательности уже порожденных слов. Последовательность событий, произведенная такой цепью Маркова, представляет собой набор слов и знаков препинания, внешне напоминающий связный текст. Важной характеристикой таких генераторов является порядок цепи Маркова – то есть количество слов, учитывающихся при порождении следующего слова. С ростом порядка цепи растет длина локально связных фрагментов текста, в то же время с ростом длины цепи генератор начинает повторять все большие куски исходного текста.

Тексты, созданные с помощью цепей Маркова, обладают рядом свойств, благодаря которым этот метод порождения текстов стал популярен при создании поискового спама.

  • Во-первых, порожденный текст содержит ту же лексику, что и исходный образец. Это позволяет использовать в качестве образца существующие тексты, которые высоко ранжируются поисковыми системами, например, брать образцы текстов из сниппетов поисковых систем, и получать на выходе тексты, оптимизированные под конкретные запросы.
  • Во- вторых, порожденный текст является с высокой вероятностью уникальным. Это затрудняет обнаружение таких текстов методами обнаружения дубликатов.

Применение автоматических генераторов текстов на основе цепей Маркова часто используется в таком виде спама как дорвеи. Функция дорвея перенаправить пользователя на некоторый целевой сайт, при этом само содержимое такого сайта никакой ценности для пользователя не несет. Дорвеи должны попадать в выдачу по популярным запросам, поэтому эффективное обнаружение такого вида спама может сократить количество спама в выдаче поисковых систем.

Тэги: text generator текстовый генератор цепи маркова


 


 
архив

подписка