Интересные факты

Как это работает? | Машинный перевод

Впервой мысль использовать электронно-вычислительные машины для перевода текстов была высказана в 1947 году в США, разом после появления первых ЭВМ. Первая публичная демонстрация машинного перевода состоялась в 1954 году. Та система была весьма примитивной: она имела словарь итого из 250 слов, 6 грамматических правил и могла переместить лишь несколько простых фраз. Однако эксперимент получил широкий резонанс: начались исследования в странах по всему миру и в том числе в СССР. Будто же работает современная система машинного перевода — об этом в сегодняшнем выпуске!

В основе современных систем лежит алгоритм перевода, использующий формальную грамматику языков и статистические данные. Чтоб выучить язык, система сравнивает тысячи параллельных текстов — содержащих одну и ту же информацию, однако на разных языках. Для каждого изученного текста система строит список уникальных признаков. Так, редко используемые слова и специальные знаки, которые встречаются в тексте с определенной частотой.

В системах машинного перевода, будто правило, три основные части: модель перевода, модель языка и декодер. Модель перевода — это таблица, в которой для всех слов и фраз на одном языке перечислены возможные переводы на иной язык с указанием вероятности этих переводов. Система сравнивает не лишь отдельные слова, но и словосочетания из нескольких слов, идущих сряду. Модели перевода для каждой пары языков содержат миллионы пар слов и словосочетаний. Что касается модели языка, то она создается системой на этапе изучения текстов.

Переводом занимается декодер. Он проводит морфологический и синтаксический разбор текста и для каждого предложения подбирает все варианты перевода с сортировкой по убыванию вероятности. Затем все полученные варианты декодер оценивает с помощью модели языка на частоту употребления и выбирает предложение с наилучшим сочетанием вероятности и частоты.

Похожие новости  Первый флагман Xperia (2018). Главное — в его корпусе?

Системы машинного перевода можно использовать не лишь для работы с текстами, однако и для перевода отдельных слов. Они содержат полноценные словари с подробными карточками слов и устойчивых выражений. Эти карточки система составляет на основе статистических данных, опираясь на правила языка. Для машинного словаря она отбирает лишь словарные формы слов и устойчивые выражения. Система проводит морфологический и синтаксический разбор, определяет часть речи, словарную форму слова и устанавливает границы словосочетаний. Эта информация помогает отсеивать неполные словосочетания. Чтоб избежать ошибок и опечаток, алгоритм, основанный на технологии машинного обучения, проверяет все потенциальные пары переводов и отсеивает ненадёжные.

Близкие по значению переводы группируются системой с помощью словарей синонимов. В них попадают слова, которые нередко переводятся на другой стиль одинаково или образуют словосочетания с одинаковыми словами. В результате машинный словарь получает всё, что ему необходимо знать о каждом слове и выражении: его словарную форму, доля речи, значения и синонимы. Отдельный системы для наглядности добавляют к переводам примеры, которые берут из параллельных текстов.

Использование статистических данных позволяет системам машинного перевода меняться совместно с языком. Если люди начинают строчить какое-то слово по-другому, система видит это, будто только к ней попадают новые тексты. Чтоб улучшать качество перевода, систему регулярно обновляют и проводят проверки. Впрочем, высококачественный машинный перевод текстов по-прежнему недостижим. Однако он гораздо облегчает и ускоряет работу переводчикам.

Hi-News.ru — Новости высоких технологий.

Добавить комментарий