Введение в машинный перевод

Машинный перевод сегодня является довольно обсуждаемой темой среди специалистов. Переводчики и разработчики программ горячо спорят друг с другом по поводу того, насколько машинный перевод может стать альтернативой обычному ручному переводу. При этом сами разработчики согласны с тем, что в ближайшем будущем программы машинного перевода не смогут заменить полностью обычный способ перевода текста человеком, особенно при переводе художественных текстов.

Идея задействовать для перевода вычислительное устройство появилась ещё в 1947 году. Но реализация подобного в те годы была просто невозможна, поскольку вычислительная техника находилась в зачаточном состоянии. Однако уже в 1954 году была предпринята первая попытка машинного перевода. Самый первый словарь включал в себя только 250 слов, а грамматика исчерпывалась 6-ю правилами. Тем не менее, этого оказалось достаточно, чтобы убедиться в большом будущем машинного перевода. Работы в данном направлении начались во многих странах, стали появляться первые системы машинного перевода, создаваться специальные теории.

 В начале развитию машинного перевода мешал низкий уровень вычислительной техники, ее очень высокая стоимость. Однако постепенное проникновение в нашу жизнь сначала персональных компьютеров, а затем и интернета, привело к стремительному развитию этой отрасли. Сегодня машинный перевод активно используется в самых разных сферах человеческой деятельности.

Электронные словари начали разрабатываться значительно раньше, чем аль­тернативные им системы машинного перевода, поэтому в настоящее время на рынке программного обеспечения имеется чрезвычайно широ­кий выбор словарей — от самых простейших до мощных систем, объединяющих в одной программной обо­лочке несколько лексических баз данных — специализирован­ных тематических словарей, последовательность подключения которых определяется пользователем. Выбор того или иного программного продукта зависит исключительно oт аппаратных возможностей компьютера, которым располагает пользователь, финансовых соображений и конкретных условий, в которых работает переводчик.

Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. А те из них, которых в нем нет, переносятся в текст непереведенными уже на выходе из системы, и их впоследствии переводят вручную при редактировании результатов перевода. Такие слова могут повлиять на качество перевода предложения. Дело в том, что для определения, к какой части речи относится рассматриваемое слово, система производит анализ всего предложения в целом. При этом имитируется мыслительная деятельность человека (такую систему принято называть системой с элементами искусственного интеллекта). Если значение хотя бы одного слова в предложении не определено, то это может исказить анализ всего предложения, а иногда и результаты всего перевода.

Использование электронных словарей во многом достаточно рутинная работа, требующая достаточно много времени. Поэтому прогресс не стоял на месте и появились программы машинного перевода.  Программы машинного перевода базируются на формальном описании любого языка, когда анализируют иностранный контент. После этого они обрабатывают полученную информацию и пытаются построить аналогичную фразу на другом языке. Для работы программы машинного перевода программисты создают очень сложные алгоритмы действия, с помощью которых создается машинный перевод. Для работы такого программного обеспечения разработчикам приходится предусмотреть большой объем словарной информации, как для оригинального источника, так и для языка, на который этот текст переводится с помощью систем машинного перевода.

На сегодняшний день работы в сфере машинного перевода разделились на два основных направления:

  • Статистический машинный перевод (Statistical Machine Translation, SMT);
  • Машинный перевод, основанный на правилах (Rule-based Machine Translation, RBMT).
  • Гибридный машинный перевод (Hybrid Machine Translation, HMT)

В первом случае перед нами самообучающиеся системы. Перевод становится возможным в результате постоянного анализа огромного количества текстов одинакового содержания, но на разных языках. Система находит и использует всегда существующие закономерности. Качество перевода в случае использования SMT считается достаточно высоким. Но только в том случае, если система уже успела проанализировать огромное количество информации. А для этого необходимо обладать не только самими тестами, но и внушительными вычислительными мощностями. Это означает, что работать в данном направлении могут только крупные компании. Примеры таких систем: Google TranslatorЯндекс.Переводчик, и Bing Translator.

В случае с RBMT-системами все правила создаются людьми, которые затем занимаются их непрестанным «обкатыванием». Соответственно качество результата зависит от того, насколько полно лингвисты сумеют описать естественный язык, с которым они работают. Именно необходимость постоянной поддержки созданной лингвистической базы данных в актуальном состоянии и является главным недостатком RBMT-систем. Зато для создания переводчика, способного обеспечить удовлетворительный результат, не требуются внушительные вычислительные мощности, что позволяет работать в данном направлении небольшим компаниям. В качестве примеров можно привести такие системы, как MultillectLinguatec и PROMT.

Гибридный машинный перевод (Hybrid Machine Translation, HMT) объединяет в себе оба подхода, SMT и RBMT. В теории такой подход позволяет получить преимущества обеих технологий. Именно его использует компания Systran, основанная в 1968 году и считающаяся старейшим коммерческим предприятием, работающим в сфере машинного перевода.

К недостаткам современных систем машинного перевода можно отнести следующие:

  • Фактически всеми системами осуществляется перевод только на уровне поверхностного синтаксиса, поскольку еще не разработаны эффективные модели формального представления смысла.
  • Установка на жанровую ограниченность текстов привела к тому, что задача моделирования естественного языка фактически уступила место задаче моделирования ограниченных ( и крайне примитивных) подъязыков отдельных отраслей знания.

 

22.01.2017









 
архив

подписка