Ошибки машинного перевода примеры - Ремонт и установка крупной бытовой техники

Описание ошибок в машинном переводе

Применение
машинного перевода без настройки на
тематику (или с намеренно неверной
настройкой) служит предметом многочисленных
бродящих по Интернету шуток.

Зачастую
программы машинного перевода понимаются
как какое-то уникальное средство, которое
способно вытеснить живых, мыслящих
переводчиков. Некоторые пользователи
полагают, что, если с помощью компьютера
сегодня можно добыть любые сведения из
многочисленных информационных источников,
от него можно ожидать соответствующей
компетентности также в вопросах
качественной трансформации этих сведений
в любой возможный языковой формат.

Однако
ни для кого не секрет, что такое
преставление крайне ошибочное. Знающие
специалисты, равно как и производители
подобных программ, понимают, что в
действительности ситуация выглядит
иначе. Конечно, рекламируя свои программные
продукты, производители честно признаются,
что качество машинного перевода далеко
от идеального и что получение адекватного
перевода возможно только при вмешательстве
человека, однако не всегда раскрывается
тот факт, что человек, которому предстоит
обработать такой перевод, должен быть
квалифицированным переводчиком и ему
придется потратить массу времени на
придание машинному тексту качества,
достойного профессионального перевода.

И
как бы ни пытались производители
приукрасить достоинства своей продукции,
пользователи многочисленных
онлайн-переводчиков всегда имеют
возможность убедиться в том, что
виртуальные «толмачи» не всегда способны
достойно справляться с поставленными
перед ними задачами. Доказательством
этому служат многочисленные шутки,
переходящие с сайта на сайт и высмеивающие
недостаточную компетентность
онлайн-переводчиков в вопросах
качественного перевода. К числу любимых
развлечений скептически настроенных
пользователей онлайн-переводчиков
относится перевод коротких предложений
или текстов песен в различных направлениях
и сравнение полученного результата с
исходным вариантом. К избитым примерам
относится перевод предложения «Мама
мыла раму» на английский язык, который
звучит как “Mum washed the frame”. Если затем
снова перевести полученное предложение
на русский язык, то разные переводчики
выдают свои результаты: «мама вымыла
структуру» (перевод Translate.ru – компания
PROMT) или «мама помыла рамку» (вариант
Babelfish.yahoo.com). Всем известен также пример
с переводом предложения “My
cat has given birth to four kittens, two yellow, one white and one
black”,
выполненным онлайн-переводчиком компании
PROMT, которое в русскоязычном исполнении
звучит как «Моя
кошка родила четырех котят, два желтых
цвета, одно белое и одного афроамериканца».
Нужно отметить, что разработчики
поработали над усовершенствованием
своего продукта, так как раньше данное
предложение начиналось с абсурдного
«Мой кот родил…», однако радует, что
данный переводчик компетентен в вопросе
политкорректности. К числу подобных
примеров относятся также переводы
различных песен и литературных
произведений, доставляющие немало
веселья экспериментаторам.

Сотрудники
многих фирм на каждом шагу встречаются
с многочисленными примерами абсурдных
переводов, выполненных посредством
онлайн-переводчиков. Зарубежные клиенты,
желающие сделать запрос на перевод, или
коллеги, предлагающие свое сотрудничество
в сфере переводов, часто прибегают к
помощи онлайн-переводчиков, столкнувшись
с необходимостью перевода электронных
сообщений на русский язык.

Например,
однажды сотрудники одной из фирм получили
электронное сообщение следующего
содержания:

Привет
Уважаемые! Пожалуйста, как вы! Надеюсь,
ты штраф и в отличном состоянии health.
I пошел через ваш профиль сегодня на
www.multitran.ru
и я прочитал его и принял в ней интереса,
пожалуйста, если вы не возражаете, я
хотел, чтобы вы напишите мне по этому
ID (***@yahoo.com)
надеются услышать от вас в ближайшее
время, и я буду Жду ваших почту, потому
что я что-то очень важно, чтобы рассказать
вам. Много любви Грейс.

Автор
сообщения сопроводил данное обращение
исходным текстом на английском языке:

Hi
Dear! Please how are you! hope you are fine and in perfect condition
of health. I went through your profile today at www.multitran.ru and
i read it and took interest in it, please if you don’t mind i will
like you to write me on this ID (***@yahoo.com
) hope to hear from you soon, and I will be waiting for your
mail because i have something VERY important to tell you. Lots
of love Grace.

Не
нужно долго гадать, чтобы понять, что
сообщение на русском языке является
результатом работы онлайн-переводчика.
Кстати, путем несложного эксперимента
было установлено, что автором данного
перевода был онлайн-переводчик Google. Это
сообщение является ярким подтверждением
тому, что данный онлайн-переводчик не
особо преуспел в своем деле и вряд ли
может бросить достойный вызов
профессиональному переводчику. Не
вдаваясь в глубокий анализ, можно
отметить, что основным недостатком
онлайн-переводчика является незнание
грамматических правил (в основном это
касается согласования частей речи и
членов предложений), а также неумение
распознавать и корректно переводить
некоторые лексические единицы,
употребленные в рамках заданного
контекста, и устойчивые выражения, в
результате чего, вместо «надеюсь, у Вас
все хорошо», переводчик выдал нелепое
и искажающее смысл предложения выражение
«надеюсь, ты штраф» (слово «fine» было
употреблено в значении «штраф»). Истинная
причина получения таких низкосортных
переводов кроется в том, что программы
машинного перевода не способны учитывать
экстралингвистические факторы. Именно
поэтому многие переводчики дословно
переводят те или иные термины и, кроме
того, не всегда отличают имена собственные
от знаменательных слов.

Ярким
примером этому может послужить перевод
статьи, посвященной Лоре Буш, супруге
бывшего президента Америки, выполненный
с помощью программы-переводчика. Ее
полное имя зазвучало на французском
языке как «le buisson de Laura», то есть «кустарник
Лоры». Программа не распознала фамилию
«Bush» как имя собственное и дословно
перевела ее на французский как «кустарник».
Но вся нелепость этой ситуации заключается
в том, что на французском сленге слово
«buisson» имеет сексуальную коннотацию.

Данные
примеры свидетельствуют о том, что
научить самый современный компьютер
языковой логике значительно сложнее,
чем математическим алгоритмам и логике
статистического анализа. Чтобы создать
в той или иной степени связный машинный
текст, программа может лишь использовать
ограниченный набор определенных
лингвистических алгоритмов, заложенных
в ее базу. Сначала система подвергает
анализу структурные элементы исходного
предложения, затем изменяет его в
соответствии правилами языка и выдает
конечный вариант. Однако как бы ни
пытались производители программ
машинного перевода усовершенствовать
свои разработки, еще ни одна технология
не выдерживала сравнения с теми
алгоритмами перевода и многочисленными
трансформациями, которым учат живых
переводчиков в школах и вузах. Безусловно,
для получения связного текста программу
можно снабдить богатой словарной базой,
включающей устойчивые выражения, а
также подключить специализированные
словари, чтобы переводчик смог перевести
тематические тексты. Но, как показывает
реальный опыт работы с онлайн-переводчиками,
это лишь малая часть того, что необходимо
для обеспечения приемлемого качества.
Основной проблемой таких переводчиков,
равно как и других систем машинного
перевода, является отсутствие фоновых
знаний. Компьютер знает только языковые
соответствия, а ведь переводчику очень
часто приходится выходить за рамки
формального текста и обращаться не к
языковым знаниям, а к экстралингвистическим
факторам, включающим знания о реальном
мире, культуре, истории, технике.
Профессиональные переводчики, особенно
технические, – это очень образованные
люди, и все их знания непосредственно
задействованы в процессе перевода.
Только в таком случае может быть
гарантировано действительно первоклассное
качество переводов. Поэтому если
разработчики сервисов онлайн-перевода
стремятся к предоставлению адекватных,
качественных переводов, они должны
снабдить своих машинных переводчиков
такими же фоновыми знаниями и, главное,
научить их правильно обращаться с
заложенным багажом знаний. Проще говоря,
программа должна понять, что возникла
какая-то проблема, для решения которой
необходимо прибегнуть к дополнительным
знаниям, и правильно сформулировать
запрос к имеющейся базе. Показательным
примером служит перевод на западноевропейские
языки предложений, в которых упоминаются
известные правители или их дети. В таких
предложениях артикль, категория которого
характерна для языков данной языковой
семьи, должен ставиться в зависимости
от общего количества детей. Например,
при переводе выражения «сын царя Федора»
артикль необходимо выбирать в зависимости
от того, сколько сыновей было у царя
Федора.

В
качестве аналогичного примера можно
привести перевод надписи на постаменте
памятника, открытого во Франции в честь
Анны Ярославны, дочери князя Киевского
Ярослава Мудрого. Перевод надписи на
французском языке звучал как «Anne de
Kiev la reine de la France», и все бы ничего, если
бы не лишний артикль. В случае с Францией
«la France» звучит как «единая
Франция», что не искажает смысл. Что
же касается дочери князя, «la reine»
означает, что она единственная за всю
историю королева Франции. Переводчик,
знакомый со всеми нюансами французской
грамматики, не допустил бы такую нелепую
ошибку, а вот для электронного переводчика
– это довольно типичная ошибка.

Чаще
всего подобные шутки связаны с тем, что
программа не распознаёт контекст фразы
и переводит термины дословно, к тому же
не отличая собственных имён от обычных
слов. Тот же переводчик ПРОМТ превращает
«bra-ket
notation» в «примечание Кети лифчика»,
«Lie
algebra» — в «алгебру Лжи», «eccentricity
vector» — в «вектор оригинальности»,
«Shawnee
Smith» в «индеец племени шони Смит» и
т. п. Переводчик
Google, наоборот, слово «rice»
часто принимал за фамилию госсекретаря
США.

А
теперь рассмотрим примеры машинного
перевода отрывков из художественных и
научных текстов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Источник

Лучший комментарий

Скрыть

Эта история приключилась 14 лет назад, когда пользовались старым, добрым промтом. Наша организация была совсем молодая, малооборудованная. И мы просили спонсорскую помощь у спонсоров: манахинь-немок. Было составлено письмо с необходимым оборудованием. Чтобы облегчить перевод и как-то ускорить получение необходимого, текст пропустили через промт. После вручения и прочтения письма у бедных немок глаза из орбит повылазили. Что они при этом говорили, я умолчу. Оказалось, что программа слова: диван и половое покрытие (через запятую), перевела «секс на диване». Теперь мне это «секс» напоминают регулярно, так как я занималась тем переводом.

гугл рулит проверил-все действительно так! эпичные ляпы

Комментарий удален

18k

В самом первом он еще и «дорогой» перевел как «моя дорогая». Переводчик что-то знает.

Хрень get ride проверил получить поездку

Кира найтли в костюме днища

26k

«Гитлер капут» просто убил!

18k

Да, теперь понятно, откуда берутся меню на русском языке в Китае и Таиланде!

Переводчик как бэ намекает

42k

13k

«Так пойдет?»

Со смокингом прикольно.
А вот дринькать смок ранее было, вместо смокинг — они так выражались, говоря про курить.

Это шедеврально! Однозначно +

Источник

Описание ошибок в машинном переводе

Например,
однажды сотрудники одной из фирм получили
электронное сообщение следующего
содержания:

Автор
сообщения сопроводил данное обращение
исходным текстом на английском языке:

А
теперь рассмотрим примеры машинного
перевода отрывков из художественных и
научных текстов.

Источник

Hisamova Venera Nafikovna, Sitdikova Farida Bizyanovna, Usmanov Timur Ravilevich MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …

philological sciences -linguistics

УДК 81’32

DOI: 10.26140/bgz3-2019-0802-0079

«ПЕРЕДНЯЯ ЧАСТЬ ПРАВОГО ТЕЛЕНКА», ИЛИ ОШИБКИ МАШИННОГО ПЕРЕВОДА (НА ОСНОВЕ АНАЛИЗА АВТОМАТИЧЕСКИХ СУБТИТРОВ)

Ситдикова Фарида Бизяновна, кандидат филологических наук, доцент

Хисамова Венера Нафиковна, доктор филологических наук, профессор Усманов Тимур Равилевич, кандидат педагогических наук, доцент Казанский федеральный университет (420008, Россия, Казань ул. Кремлевская, 18, e-mail: farida7777@yandex.ru)

Аннотация. Статья посвящена анализу ошибок, сделанных машинным переводчиком Google Translate при переводе с английского на русский. Проблема качества машинного перевода является крайне актуальной в настоящее время в связи с возрастающей интенсивностью интернет-коммуникаций. В статье рассматриваются как достоинства, так и недостатки машинного перевода. Решение поставленной задачи — оценка качества машинного перевода — проводилось на материале автоматических субтитров, переведенных машинным переводчиком. На основании большого количества языковых примеров проведен анализ наиболее характерных ошибок переводчика Google Translate. Ошибки были поделены на несколько типов. Лексико-семантические ошибки включали в себя следующие: 1) неспособность выбрать нужное по контексту значение; 2) перевод семантических конструкций; 3) перевод имен собственных; 4) перевод аббревиатур. Рассматривались также морфологические, синтаксические и стилистические ошибки. Собрана статистика по количеству ошибок каждого типа. Делается вывод по количеству ошибок каждого типа. На основании проведенного опроса делается вывод о возможности использовать машинный перевод субтитров в практических целях в качестве сигнальной версии перевода субтитров. Материалом для исследования послужили автоматические субтитры, переведенные на русский язык Google Translate, которые сравнивались с английским оригиналом. Статья может представлять интерес для исследователей, интересующихся проблемами и перспективами машинного перевода.

Ключевые слова: компьютерная лингвистика, машинный перевод (МП), MT, машинный переводчик, автоматический перевод, автоматический переводчик, статистический МП, SMT, нейронный МП, NMT, система машинного перевода (СМП), постредактирование, ошибки машинного перевода

MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS OF AUTOMATIC SUBTITLES)

Hisamova Venera Nafikovna, Doctor of Philology, professor Sitdikova Farida Bizyanovna, Candidate of Philological Sciences, Associate Professor Usmanov Timur Ravilevich, Candidate of Pedagigics, Associate Professor Kazan Federal University (420008, Russia, Kazan, Kremlevskaya St., 18, e-mail: farida7777@yandex.ru)

Abstract. The article describes typical errors made by Google Translate in the process of translation from English into Russian. Quality of machine translation is an acute problem due to increasing intensity of Internet communication. The article discusses both advantages and disadvantages of machine translation. The work objective was to evaluate the quality of machine translation. Subtitles generated automatically served as a study material. We used a large number of language examples to perform analysis of the most characteristic mistakes made by Google Translate. The errors were divided into several types. The lexico-semantic errors included: 1) choosing a wrong contextual meaning; 2) incorrect translation of semantic constructions; 3) incorrect translation of proper names; 4) incorrect translation of bbreviations. Morphological, syntactic and stylistic mistakes were also considered. We performed statistical analysis of each type of the detected errors. Based on the obtained data, it was shown that it is possible to use automatically generated subtitles for practical purposes as a signal version of the subtitle translation. The article may be of interest to researchers studying the problems and prospects of machine translation.

Keywords: computational linguistics, machine translation (MT), MT, machine translator, automatic translation, automatic translator, statistical MP, SMT, neural MT, NMT, machine translation system (SMP), post-editing, machine translation errors

В статье исследуется проблема качества машинного перевода на основе анализа автоматических субтитров. Для начала уточним, что машинный перевод (МП, MT, Machine Translation) — это перевод текстов с одного естественного языка на другой специальной компьютерной программой. Такое же название носит направление научных исследований, связанных с построением подобных систем [1].

Актуальность статьи связана с возрастающей интенсивностью интернет-коммуникаций, соответственно возникает проблема быстрого и качественного, по возможности дешевого перевода. В настоящее время все больше людей в связи с растущими объемами информации используют системы машинного перевода. Поэтому значение автоматизированных систем перевода постоянно повышается [2]. К сожалению, на сегодняшний день переводы, сделанные машинными переводчиками, остаются несовершенными. В связи с этим исследование проблем машинного перевода представляется актуальным в целях повышения качества таких переводов [3].

Целью нашего исследования было рассмотреть возможность применения машинных переводчиков без участия переводчика-человека в практической сфере, а именно, для перевода автоматических субтитров. Для достижения данной цели были поставлены следующие задачи:

1) рассмотреть понятие МП и кратко описать различные системы МП;

2) раскрыть достоинства и недостатки МП;

3) сделать выборку переведенных предложений, содержащих ошибки того или иного рода;

4) проанализировать ошибки, провести классификацию и разбить их на группы;

5) сделать выводы относительно качества МП и возможностей практического применения.

Для начала отметим, что существуют различные типы систем машинного перевода:

1) основанные на правилах грамматики;

2) использующие в своей работе статистический анализ;

филологические науки —

языкознание

Ситдикова Фарида Бизяновна, Хисамова Венера Нафиковна, Усманов Тимур Равилевич MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …

3) системы гибридного типа;

4) основанные на нейронных сетях и характеризующиеся способностью к обучению [4, 5].

Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (например, ПРОМТ в России (год создания 1991), SYSTRAN во Франции, Linguatec в Германии и т.д.). Ко второму типу относятся такие сервисы, как Яндекс. Переводчик (2009), Переводчик Google (2003), а также новый сервис от ABBYY [6].

Особенностью статистического МП является то, что системы такого рода в своей работе используют статистический анализ. В систему загружается корпус текстов на двух языках, после этого система выдает анализ статистики языковых соответствий и различных синтаксических конструкций в двух языках. Преимущество системы в том, что она является самообучаемой, т.е. при выборе нужного варианта перевода она исходит из полученной ранее статистики. Чем больше объем словаря для языковой пары и чем выше его качество, тем лучше результаты данного виде перевода. К наиболее значительным недостаткам систем SMT можно отнести наличие многочисленных лексических и грамматических ошибок и нестабильность перевода [7].

За последние годы произошел ряд технологических прорывов и существенный рост вычислительной мощности компьютеров, благодаря чему интенсивное развитие получила технология машинного обучения. Эта концепция нашла применение и в области машинного перевода. Так, в 2016 года сразу несколько крупных компаний объявили о создании новейших технологий MT, основанных на нейронных сетях (англ. Neural MT (NMT)).

Нейронный машинный перевод (Neural Machine Translation, NMT) — это вид МП, в котором используется искусственная нейронная сеть. Этот способ принципиально отличается от использованных ранее методов [8]. Модели NMT способны обучаться во время работы и со временем их перевод становится более эффективным.

В сентябре 2016 года компания Google представила систему нейронного машинного перевода (Google Neural Machine Translation system, GNMT) [9]. Как утверждают разработчики, она превосходит по качеству все предыдущие технологии в этой области. Применение GNMT сокращает количество ошибок в машинном переводе на 55-85% [10]. В 2016 г. движок перевода был включен в обе стороны для девяти языков: английского, французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого. В марте 2017 г. были добавлены ещё три языка: русский, хинди и вьетнамский [11]. Преимуществом нейронной сети является сам подход к обработке текста. Большинство переводчиков обрабатывают каждое слово по отдельности, а нейросеть переводит фразы и предложения целиком, с учетом контекста. Это дает надежду на то, что уже в ближайшие годы мы можем ожидать улучшения качества машинного перевода.

В 2017 г. компания Yandex запустила нейросетевой перевод, главным достоинством которого была заявлена гибридность. СМП Yandex переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью алгоритма CatBoost, в основе которого лежит машинное обучение, находит наиболее подходящий вариант [12].

У существующих онлайн-переводчиков есть ряд достоинств, которые нужно признать и которые способствуют повышению их популярности у пользователей Интернета:

1) бесплатный перевод;

2) доступность в любое время дня и ночи, был бы интернет;

3) скорость перевода — практически сразу после ввода;

4) большое количество языковых пар (например, раз-

работчики Гугла сообщили, что их система в настоящее время способна понимать 90% человечества [13]);

5) простой и понятный интерфейс;

6) отметим также такой важный фактор, как конфиденциальность информации;

7) наконец, онлайн переводчики могут встраиваться в различные сервисы, например, переводить страницы на сайтах [14].

С другой стороны, несмотря на то, что ежегодно вкладываются миллиарды долларов в развитие систем машинного перевода, на сегодняшний день нет машинного переводчика, который давал бы перевод, сравнимый с результатом работы переводчика-человека. В связи с этим представляет интерес анализ наиболее характерных ошибок, допускаемых машинными переводчиками, а также их классификация и сбор статистических данных.

Анализ ошибок машинного перевода проводился рядом авторов. В частности, Переходько И.В., Мячин Д.А. [15] предприняли попытку анализа текстов переводов Интернет-сайтов, выполненных с помощью систем компьютерного перевода, на основе лингвостилистического анализа и на основе автоматической обработки текстов с использованием метрики METEOR по методу N-грамм. Авторы делают вывод о том, что наибольшее количество ошибок в машинных переводах связано с переводом семантических конструкций.

Ряд авторов [16, 17], ставят целью использовать автоматическую оценку качества МП и анализ качества перевода научно-технического текста с помощью различных метрик. При этом сами авторы отмечают, что важным недостатком автоматических метрик является то, что они не могут предоставить оценку качества МП на уровне смысла.

Наше исследование по оценке качества машинного перевода представляло анализ переводов, выполненных машинным переводчиком Google Translate. Методическая новизна заключалась в материале исследования, которым послужили автоматические субтитры, сделанные этой СМП. Анализ автоматических субтитров проводился при просмотре детективного сериала «Парочка следователей» («Partners for Justice») [18], который переводился с английского на русский с использованием английских субтитров. Задолго до «человеческого» перевода выкладывались автоматические субтитры. Для этой цели использовался скрипт Translate Shell, доступный по адресу: https://github.com/soimort/ translate-shell. Субтитры в формате SRT скачивались либо с https://avistaz.to/, либо с https://subscene.com/. В результате появлялся текст, который вполне давал возможность понять большую часть содержания, за исключением некоторых моментов, на которых мы остановимся далее.

Несколько слов о том, как собирались и анализировались примеры. Просматривались серии с автоматическими субтитрами и методом сплошной выборки отбирались предложения, не соответствующие языковым нормам или не позволяющие вывести смысл.

После этого просматривалась соответствующая серия с английскими субтитрами и сравнивалась с машинным переводом, сделанным Google Translate. Другими словами, использовались метод сплошной выборки, сравнительно-сопоставительный метод и лексико-се-мантический анализ.

Google Translate — бесспорно одна из самых лучших СМП на сегодняшний день. При создании текста перевода она использует примеры из миллионов документов, чтобы выбрать правильный вариант. Тем не менее, в отличие от переводчика-человека, система может допускать ряд ошибок, которые мы разбили на следующие группы:

I. Лексико-семантические ошибки. Это, на наш взгляд, самые существенные ошибки, которые часто препятствуют пониманию смысла высказывания. Среди

Hisamova Venera Nafikovna, Sitdikova Farida Bizyanovna, Usmanov Timur Ravilevich MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …

philological sciences -linguistics

них важнейшей ошибкой является 1) неспособность выбрать нужное по контексту значение лексической единицы — то, с чем без труда справляется переводчик-человек. Возьмем пример, использованный в заголовке. Машинный перевод приведен во втором столбце, верный перевод — в третьем.

The front of right calf, multiple skin abrasions. Передняя часть правого теленка, множественные царапины на коже. Передняя часть правой голени, множественные царапины на коже (ер.25, 0:12).

Контекстом являлись слова паталогоанатома, делающего вскрытие. Понятно, что имелась в виду передняя часть правой голени. Приведем еще один пример:

Darn it, this jerk! Оберните это, этот рывок! Черт побери, этот придурок! (ep. 29, 11:30).

Этот и другие многочисленные случаи говорят о том, что машинным переводчиком выбираются значения слова без учета контекста. Среди лексических ошибок можно также выделить 2) перевод словосочетаний с переносным значением (назовем их семантическими конструкциями), которые переводились дословно. Например:

If this becomes one more cold case, we’ll all have to retire. Если это станет еще одним холодным случаем, мы все должны уйти в отставку. Если это станет еще одним нераскрытым случаем, мы все должны уйти в отставку ^.29, 07:59).

Переносное значение выделенного словосочетания — нераскрытое дело, «глухарь». При таком переводе смысл предложения может быть не понят зрителем. Еще один пример:

The murderer’s gone out of the grid for 30 years. Убийца ушел с сетки в течение 30 лет. Убийца затаился на 30 лет. (ep. 3, 0: 22).

Ошибки такого рода свидетельствуют о том, что машинные переводчики на сегодняшний день не справляются с переводом семантических конструкций и выдают калькированный перевод, который приводит к нелепым результатам, далеким от настоящего смысла. Приведем третий пример:

You are normally this straightforward once you have set your mind on something. Ты обычно такой прямолинейный, после того, как вы установили свой ум на что-то. Вы обычно идете напролом, если что-то задумали. ^. 10, 31: 50).

Where’s So Hi? (женское имя)

Где такХи?

Где Со Хи? (ep. 22, 23:02).

I am such a bad boss. I owe Sang An so much.

Я паршивый начальник. Я должна спеть так много.

Я неблагодарный начальник. Я так многим обязан Сан Ан. (ep. 22, 27:12).

Справедливости ради надо отметить, что Гугл с годами все же улучшает качество перевода имен собственных. Вспоминается случай, когда несколько лет назад при переводе с русского на английский сочетания улица Горького выдавался перевод Bitter street, то есть имя собственное воспринималось как нарицательное bitter — горький. Но если сейчас ввести это словосочетание в переводчик Гугл, то на выходе получим верный перевод: Gorky Street. Огромная работа, проводимая разработчиками этой СПМ, позволяет надеяться на то, что в перспективе можно ожидать более качественных результатов автоматического перевода.

Наконец, следует сказать несколько слов о 5) переводе аббревиатур. Нам встретился только один подобный пример, но автоматический переводчик оставил его без перевода, в исходном виде. Возможно, это связано с тем, что это латинское выражение (modus operandi):

Она была

She was murdered Она была убита с убита тем же

with the same MO. той же МО. способом^. 23,

3:09).

2. Морфологические ошибки, связанные с переводом частей речи и их употреблением, т.е. ошибки в переводе рода, числа, склонения, падежа существительных, видо-временных форм глагола т.д. Приведем несколько примеров ошибок этого типа.

Are you kidding me? Вы меня издеваетесь? Вы надо мной издеваетесь? ^. 23, 10:12).

You can’t do an autopsy on my Dad. Вы не можете сделать вскрытие моей папе. Вы не можете сделать вскрытие моему папе. ^.24, 15:48).

Didn’t Dad go to hospital regularly? Разве папа не пошел в больницу регулярно? Разве папа не ходил в больницу регулярно? ^.24, 7:56).

Объясняя причины калькированного перевода, некоторые исследователи считают, что система МП на основе переводных соответствий не всегда может справиться с одной из принципиальных задач перевода, а именно, перехода от конструкции исходного языка к конструкции выходного языка, поэтому в тексте перевода появляются конструкции, характерные языку оригинала, но не языку перевода [19].

Таким образом, мы можем наблюдать, как при МП могут нарушаться языковые нормы того языка, на который осуществляется перевод.

Отдельным случаем лексико-семантических ошибок является 3) перевод имен собственных. Часто система переводит имена собственные (особенно короткие, в данном случае корейские) как нарицательные слова, например:

В первом случае использован неверный падеж, во втором ошибка в переводе рода существительного, в третьем примере неверный вид глагола. Но хотя перевод данных предложений не соответствует нормам русского языка, эти ошибки не являются такими серьезными, как ошибки первого типа, т.к. не препятствуют извлечению смысла.

3. Стилистические и синтаксические ошибки.

Стилистические ошибки включают нарушение сочетаемости слов, тавтология, лексическая недостаточность, частые повторы слов, смешение стилей и т.д. Сюда также относятся нарушение порядка слов в предложении, нарушение согласования с главным словом, пропуск или неверное употребление предлога, синтаксическая неоднозначность, отсутствие смысловой законченности предложения. Так же, как и морфологические, эти ошибки вполне позволяют извлечь смысл фразы или высказывания. Приведем несколько примеров:

Интересен случай, когда имя переведено с английского как глагол прошедшего времени, потому что по написанию совпадало с ним:

Thanks to your care-taking, I think I healed quickly. Благодаря вашей заботе, я быстро зажила. Благодаря вашей заботе, у меня всё быстро зажило. ^.7, 6:55).

The fridge and cabinets are bare. Холодильник и шкафы голые. Холодильник и шкафы пустые.(ер.23. 27:54).

You are to take this position after me. Вы должны забрать этот пост за мной. Ты должен занять это место после меня22, 19:34).

Подводя итоги, следует отметить, что наиболее существенными для понимания и самыми многочисленны-

филологические науки -языкознание

ми были лексико-семантические ошибки (около 53%). Морфологические ошибки не мешали пониманию текста, но также были довольно многочисленными (28%). Оставшуюся часть (19%) составляли стилистические и синтаксические ошибки. Наши результаты хорошо кор-релируются с выводами других исследователей, например [15], [20].

Далее был организован опрос пользователей группы в ВК, смотревших данный сериал. Было опрошено 57 пользователей с целью выяснить, насколько часто при просмотре сериала с автоматическими субтитрами им приходилось пересматривать серии с «человеческим» переводом. Полученные результаты описываются в выводах.

Выводы.

1. За последние десятилетия разработок области машинного перевода качество перевода улучшилось, и машинные переводчики вполне способны выстраивать разумные фразы. Уже сейчас системы МП оказывают большую помощь, делая для переводчиков черновую работу и оставляя человеку лишь постредактирование.

2. Наше исследование продемонстрировало, что сегодняшний день МП, хотя и является несовершенным, но вполне успешно может использоваться в практических целях. Примером того служит автоматический перевод субтитров, выполненный Google Translate, который, как показала практика, с успехом можно использовать как сигнальную версию, дающую представление о содержании текста (в данном случае содержании сериала). В 89,5% случаев (51 зрителей из 57) просмотра серий с автоматическими субтитрами не потребовался просмотр серий с переводом.

Возможно, такой высокий процент объясняется тем, что перевод субтитров — это не перевод текста в чистом виде. При просмотре фильма зритель получает также визуальную информацию и при понимании руководствуется не только текстом, но и контекстом и ситуацией.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. В отличие от переводчика-человека машинный переводчик Google Translate при переводе допускает ошибки, которые мы разбили на несколько групп.

Общее количество ошибок 200 100%

1) лексико-семантические 106 53

2) морфологические 56 28

3) стилистические и синтаксические 38 19

4. Говоря о статистических результатах, следует отметить, что наиболее существенными для понимания и самыми многочисленными были лексико-семантиче-ские ошибки (около 53%).

5. К досадным ошибкам приводил калькированный перевод семантических конструкций, к которым относятся фразеологические обороты, образные выражения, метафоры, фразовые глаголы английского языка и т.д. В объяснении причин такого явления мы согласны с исследователями, утверждающими, что система МП на основе переводных соответствий не может совершить переход от конструкции исходного языка к конструкции выходного языка [18], поэтому в тексте перевода появляются конструкции, характерные языку оригинала, на языке перевода звучащие нелепо.

6. Морфологические ошибки не мешали пониманию текста, но также были довольно многочисленными (примерно 28%).

7. Стилистические и синтаксические ошибки составляли оставшуюся часть (19%).

8. Пока сложно сделать прогноз, насколько может улучшиться качество машинного перевода в ближайшие десятилетия. Но даже если системы МП не смогут достичь того же уровня, что «человеческий перевод», тем не менее сложно представить будущее без машинных переводчиков, т.к. их помощь человеку сложно переоценить.

СПИСОК ЛИТЕРАТУРЫ:

1. Воронович В.В. Машинный перевод. Конспект лекций для студентов 5-го курса специальности «Современные иностранные языки». Минск, 2013 — 39 с.

2. Евдокимов А.С. Искусство машинного перевода //Hard’N’Soft.

— 2005. -№ 7. — С. 86-91.

3. Марчук Ю.Н. Компьютерная лингвистика : учеб. пособие /Ю. Н. Марчук. -М. : АСТ : Восток-Запад, 2007. — 317 с.

4. Ситдикова Ф.Б. Эволюция машинного перевода./Янбекова Г.Б., Галимзянова З.В., Ситдикова Ф.Б. // Научные революции: Сущность и роль в развитии науки и техники: Сборник статей по итогам Международной научно-практической конференции (Оренбург, 30 апреля 2018 г.). — Стерлитамак: АМИ, 2018. С. 53-58.

5. О термине «машинный перевод». [Электронный ресурс] URL: http://ru.wikipedia.org/wiki/Машинный_перевод (дата обращения: 9.04.2019).

6. Андреева А.Д., Меньшиков И.Л., Мокрушин А.А. Обзор систем машинного перевода //Молодой ученый. — 2013. — №12. — С. 64-66.

— [Электронный ресурс] URL https://moluch.ru/archive/59/8581/ (дата обращения: 9.04.2019).

7. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. — Москва: ACADEMIA, 2006. 7. Google Translate начал использовать нейроперевод. [Электронный ресурс] URL: https://www.armadaboard.com/topic59199.html (дата обращения: 9.04.2019).

8. Нейронный машинный перевод. Вводный курс. [Электронный ресурс]URL:http://datareview.info/article/neyronnyiy-mashinnyiy-perevod-s-primeneniem-gpu-vvodnyiy-kurs-chast-1/ (дата обращения: 9.04.2019).

9. Google Translate подключил русский язык к переводу с глубинным обучением. [Электронный ресурс]. URL: https://habr.com/post/370243/ (дата обращения: 9.04.2019).

10. Краткая история машинного перевода. [Электронный ресурс]. URL: http://linguisticus.com/ru/TranslationTheory/OpenFolder/ ISTORIJA_MASHINNOGO_PEREVODA (дата обращения: 9.04.2019).

11. Нейронный машинный перевод Google [Электронный ресурс]. URL: https://habr.com/ru/post/414343/ (дата обращения: 9.04.2019).

12. Яндекс запустил гибридную систему перевода. [Электронный ресурс]URL: https://yandex.ru/blog/company/kak-pobedit-mornikov-yandeks-zapustil-gibridnuyu-sistemu-perevoda (дата обращения: 9.04.2019).

13. Нейросеть Google Translate составила единую базу смыслов человеческих слов. [Электронный ресурс]URL: https://habr.com/ru/ post/369913/(дата обращения: 9.04.2019).

14. Анализ машинного перевода и сравнение онлайн-переводчиков

— новая жизнь старого проекта. [Электронный ресурс]. URL: http:// news.flarus.ru/?topic=632 (дата обращения: 9.04.2019).

15. Переходько И.В., Мячин Д.А. Оценка качества компьютерного перевода. -Вестник Оренбургского государственного университета.

— 2017. — № 2. — С. 92-96.

16. Улиткин И.А. Автоматическая оценка качества перевода научно-технического текста. [Электронный ресурс]. URL: https:// vestnik-mgou.ru/Articles/Doc/10973 (дата обращения: 9.04.2019).

17. Кедрова Г.Е., Потемкин С.Г. Автоматическая оценка качества машинного перевода на основе семантической метрики // Вiсник Луганського нащонального педагогiчногоунiверситету iменi Т. Шевченка. — № 15(95). — С. 35-41.

18. Парочка следователей | Partners for Justice. [Электронный ресурс]. URL: http://doramatv.ru/partners_forjustice (дата обращения: 9.04.2019).

19. Томин В.В. О проблемах машинного перевода научно-технического текста в информационном поле кросс-культурного взаимодействия. [Электронный ресурс]. URL: http://vestnik.osu.ru/2015_1/5.pdf (дата обращения: 9.04.2019).

20. Кочеткова Н. С., Ревина Е.В. Особенности машинного перевода // Филологические науки. Вопросы теории и практики Тамбов: Грамота, 2017. — № 6(72): в 3-х ч. Ч. 2. C. 106-109. ISSN 1997-2911

Статья поступила в редакцию 23.03.2019 Статья принята к публикации 27.05.2019

Источник

Библиографическое описание:

Красильникова, В. Г. Анализ качества машинного перевода системами Google Translate и Яндекс.Переводчик (на материале отрывка из научно-популярного издания по медицине) / В. Г. Красильникова, А. Д. Сафронова. — Текст : непосредственный // Молодой ученый. — 2021. — № 23 (365). — С. 492-494. — URL: https://moluch.ru/archive/365/81991/ (дата обращения: 25.06.2023).

В рамках данного исследования был проведён анализ ошибочно переведённых фрагментов машинного перевода на материале отрывка из научно-популярного издания о деменции.Мы выделили массив ошибок, допущенных системами Google Translate и Яндекс.Переводчик, и классифицировали их по трём группам ошибок, связанных с денотативным и жанрово-стилистическим содержанием оригинала, а также с оформлением текста на языке перевода, и постарались объяснить причины их возникновения.

Ключевые слова:

машинный перевод, переводческие ошибки, постредактирование, научно-популярная литература, медицинский дискурс.

Книгоиздание является одним из процессов, подлежащих возможной автоматизации в будущем. На сегодняшний день количество книг, переведённых системами машинного перевода и отредактированных далее человеком слишком мало, чтобы делать выводы об эффективности машинных переводчиков в этой области, однако и разработчики, и представители книжного рынка, и постредакторы машинного перевода позитивно относятся к тому, чтобы делегировать часть переводческих задач автоматизированным системам, тем самым осуществить переквалификацию действующих переводчиков [1, 3, 4, 5, 6].

Мы проанализировали ошибки, допущенные двумя популярными системами машинного перевода. Ошибками в переводе считаются неоправданные переводческие трансформации, нарушение логики изложения на языке перевода и несоблюдение узуса и норм переводящего языка. Для данной работы в качестве основы была выбрана классификация ошибок по Д. М. Бузаджи и соавт. [2]. В ней выделяется четыре крупные группы переводческих ошибок, но поскольку в исследуемом материале не была представлена группа, связанная с нарушениями передачи авторской оценки, было принято решение не учитывать её при демонстрации полученных результатов. Несмотря на тот факт, что в научно-популярной литературе оценочная лексика встречается гораздо чаще, чем в специализированных текстах [2, с. 60], конкретно в анализируемом отрывке изложение материала близится к объективному с нейтральным уровнем экспрессии. Авторы не говорят о себе и не выражают свою позицию по тому или иному вопросу, лишь популяризуют знание. Таким образом, мы ограничились тремя группами переводческих ошибок, а именно:

1) нарушения при передаче денотативного содержания текста;

2) нарушения при передаче стилистических характеристик оригинала;

3) нарушения нормы и узуса ПЯ.

Материалом исследования послужил отрывок из англоязычной научно-популярной книги о деменции [7]: разделы, описывающие деменцию как заболевание, её симптомы и четыре основных вида. Перевод осуществлялся системами Google Translate и Яндекс.Переводчик, которые различаются в своём подходе к данному процессу. Первая система использует нейронный машинный перевод, изредка обращаясь к статистическому подходу; вторая переводит по гибридному типу, выбирая один из вариантов статистического или нейронного перевода для каждого исходного сегмента. Обе системы постоянно обучаются за счёт пополнения учебных корпусов (как правило, это web-тексты) и активного участия пользовательского сообщества в развитии данных систем. Переведённый машинными переводчиками текст подлежал сравнению с опубликованным на русском языке переводом данного произведения [8]. Для удобства сравнения анализируемый текст был разбит на смысловые единства согласно опубликованному переводу. Каждый такой блок, содержащий заголовок, абзац или группу абзацев помещался в поле для исходного текста в интерфейсе машинных переводчиков. Выведенный в поле с переводом текст подлежал дальнейшему количественно-качественному анализу содержащихся в нём ошибок. Текст машинного перевода нами не редактировался.

Всего в переводе от Google Translate было зафиксировано 405 случаев переводческих ошибок (100 %), из которых наибольшую частотность имеет такой вид ошибок, как неточная передача информации: 139 случаев (34.3 %). Далее следуют нарушения при передаче жанрово-стилистических особенностей текста оригинала: 82 случая (20.2 %). Третье место по частотности разделяют калькирование и нарушения узуса ПЯ: по 40 случаев каждого вида (9.9 %). Общее число случаев переводческих ошибок в рамках исследованного материала от Яндекс.Переводчика составило 439 единиц (100 %). Распределение ошибок по частотности аналогично тому, что было у зарубежной системы машинного перевода. Неточная передача информации представлена наиболее часто: 143 случая (32.6 %). Вторыми по частотности являются нарушения при передаче жанрово-стилистических особенностей текста оригинала: 91 случай (20.7 %). Далее следует калькирование: 56 случаев (12.8 %).

Табличное отображение ошибок по видам внутри групп для каждой системы машинного перевода выглядит следующим образом:

Таблица 1

Частотность ошибок, допущенных системами машинного перевода

Google

Translate

и

Яндекс.Переводчик

	Google Translate	Янде кс.Переводчик
№	Группа и вид ошибки	Кол-во	Частотность	Кол-во	Частотность
1.	Нарушения при передаче денотативного содержания текста	189	46.7 %	188	42.8 %
1.1	опущение информации	17	4.2 %	12	2.7 %
1.2	добавление информации	10	2.5 %	3	0.7 %
1.3	замена информации	23	5.7 %	30	6.8 %
1.4	неточная передача информации	139	34.3 %	143	32.6 %
2.	Нарушения при передаче стилистических характеристик оригинала	162	40 %	186	42.4 %
2.1.	нарушения при передаче жанрово-стилистических особенностей текста оригинала	82	20.2 %	91	20.7 %
2.2.	калькирование	40	9.9 %	56	12.8 %
2.3.	нарушения узуса ПЯ	40	9.9 %	39	8.9 %
3.	Нарушения нормы и узуса ПЯ	54	13.3 %	65	14.8 %
3.1.	ошибки в орфографии и пунктуации	2	0.5 %	4	0.9 %
3.2.	ошибки при передаче имен собственных при наличии или отсутствии традиционного варианта	3	0.7 %	4	0.9 %
3.3.	нарушения стилистических норм ПЯ	37	9.1 %	29	6.6 %
3.4.	ошибки при передаче некоторых цифровых данных	3	0.7 %	2	0.5 %
3.5.	нарушения требований к оформлению данного типа текстов	9	2.2 %	26	5.9 %
Всего ошибок	405	100 %	439	100 %

Так как Яндекс.Переводчик обучается на корпусах русских текстов, ожидалось, что перевод от данной системы будет содержать меньшее количество ошибок, однако обе системы выдают переводы одинакового уровня качества, которые безусловно нуждаются в постредактуре. По результатам исследования, 89–92 % текста, генерируемого машинными переводчиками, содержало переводческие ошибки.

Чаще всего допускались ошибки по типу неточной передачи информации из оригинального текста, для избегания которых необходимо владеть таким приёмом переводческих трансформаций как модуляция. Именно распознавание тонких смысловых оттенков значений и логическое развитие оригинальной мысли на переводящем языке недоступно для нейросетей на настоящем этапе их развития. Кроме того, векторное представление слов для текстов научно-популярного медицинского дискурса у нейросетей развито недостаточно, поэтому наблюдаются проблемы с актуальным членением предложения в тексте переводов, что тоже относится к неточной передаче информации. Ошибки дискурсивного характера могут быть связаны с тем, что машинные переводчики, в отличие от реальных, не работают с коммуникативной целью исходного текста. В связи с этим в тексте перевода не соблюдается единая терминология, происходит неуместный переход от научной лексики к разговорно-бытовой, термины претерпевают генерализацию или же идентификация терминов вовсе не осуществляется, и машинный переводчик переходит на лексическое или синтаксическое калькирование. Аналогичные переводческие ошибки наблюдались в терминосодержащих словосочетаниях. Наконец, третья группа ошибок представляла собой нарушения нормы и узуса переводящего языка, но не с точки зрения смыслов, авторских сем, а графического и стилистического оформления текстов на русском языке. Данные переводческие ошибки возникали несистематично, спонтанно. Они обусловлены «шумами», «мусором» в учебных корпусах текстов. Так, в тексте перевода наблюдались лишние пробелы и символы, изменение регистра и нарушения стилистических норм. Такой вид ошибок, как сбои в передаче цифровых данных, в нашем случае объясняется отсутствием в базе корпусов системы синонимов и эквивалентов мер времени, которые, как известно, различаются в англоязычной и русскоязычной культурах.

Системы машинного перевода постепенно набирают популярность среди профессиональных переводчиков благодаря тому, что они способны в значительной степени упростить процесс перевода. Владение навыком работы в таких системах и постредактирования найденных ошибок определяет востребованность современного переводчика и его конкурентоспособность. Это одна из новейших задач в переводческой индустрии. Стоит отметить, что абсолютная замена реальных переводчиков компьютерными программами перевода не предвидится, по крайней мере, в ближайшем будущем. Несмотря на то, что переводчик теперь склонен выбирать и редактировать наиболее оптимальный из предложенных его «коллегой» вариантов, условием качественного машинного перевода остаётся человеческая экспертиза и авторство перевода, в любом случае, принадлежит людям.

Литература:

Бенюмов, К. «Как думаете, какой запрос самый распространенный?» Глава Google Translate Барак Туровски — о том, как сервис переходит на нейросети [Интервью] / К. Бенюмов — Текст: электронный // Meduza. — 07.03.2017. — URL: https://meduza.io/feature/2017/03/07/kak-dumaete-kakoy-zapros-samyy-rasprostranennyy (дата обращения: 20.03.2021).
Бузаджи, Д. М. Новый взгляд на классификацию переводческих ошибок / Д. М. Бузаджи, В. В. Гусев, В. К. Ланчиков, Д. В. Псурцев. — Москва: Всероссийский центр переводов, 2009. — 121 c. — Текст: непосредственный.
Воронович, В. В. Машинный перевод / В. В. Воронович. — Текст: непосредственный // Конспект лекций для студентов 5-го курса специальности «Современные иностранные языки». — Минск: Белорусский государственный университет, 2013.
Сандалов, Ф. Редакторские тяготы — часть вторая: переводы / Ф. Сандалов. — Текст: электронный // Facebook: [сайт]. — URL: https://www.facebook.com/from.depot/posts/10224120155289932 (дата обращения: 20.03.2021).
Тарарак, Е. Машина vs Человек. Отберет ли искусственный интеллект хлеб у переводчиков? [Интервью] / Е. Тарарак. — Текст: электронный // Новая газета: [сайт]. — URL: https://novayagazeta.ru/articles/2020/12/13/88357-mashina-vs-chelovek (дата обращения: 20.03.2021).
Zaretskaya, A. Integration of Machine Translation in CAT Tools: State of the Art, Evaluation and User Attitudes / A. Zaretskaya, P. G. Corpas, M. Seghiri. — Текст: непосредственный // SKASE Journal of Translation and Interpretation. — 2015. — № 8. — С. 76–88.
Warner, J. A Pocket Guide to Understanding Alzheimer’s Disease and Other Dementias / J. Warner, N. Graham. — Second Edition. — London : Jessica Kingsley Publishers, 2018. — 160 c.
Грэм, Н. Поговорим о болезни Альцгеймера. Карманный справочник для ухаживающих за близким с деменцией / Н. Грэм, Дж Уорнер. — Москва : Олимп-Бизнес, 2018. — 121 c. — (Как жить (Олимп-Бизнес)

Основные термины (генерируются автоматически): машинный перевод, ошибка, неточная передача информации, переводчик, система, жанрово-стилистическая особенность текста оригинала, нарушение, нарушение нормы, переводящий язык, передача.

Источник

Описание ошибок в машинном переводе

Описание ошибок в машинном переводе

Библиографическое описание: