Анастасия Куртукова, спикер TFR: особенности постредакции и советы по работе с машинным переводом


  • 21.08.2018
  •  2469
  •  0
Анастасия Куртукова, спикер TFR: особенности постредакции и советы по работе с машинным переводом

TopTR продолжает серию интервью со спикерами Translation Forum Russia, который пройдёт с 24 по 26 августа в Екатеринбурге.

Спикер Анастасия Куртукова окончила Новосибирский государственный технический университет по специальности «зарубежное регионоведение». После выпуска пришла в агентство «АУМ» на позицию менеджера переводческих проектов, но вскоре заинтересовалась редакцией и осталась в агентстве в качестве штатного редактора в группе гуманитарных проектов. Работает с маркетинговыми текстами, деловой публицистикой и корпоративными документами.

 

Здравствуйте, Анастасия. Тема Вашего доклада — «Постредакция: вызовы и возможности», где, как Вы уточнили, под «постредакцией» понимается редакция человеком машинного перевода. Почему именно этот вопрос Вы решили поднять на будущем форуме TFR?

Эта тема интересует не только нас. Заказчики, коллеги, переводчики — все либо наслышаны о машинном переводе, либо уже столкнулись с ним. В отрасли появляются новые технологии, и с ними нужно учиться работать. У нас в агентстве накопился некоторый опыт постредакции машинного перевода с английского на русский, и мы хотели бы поделиться им с коллегами по отрасли.

 

Насколько рынок заинтересован в машинном переводе? Есть ли ощутимый рост интереса?

Определенно есть. Первый заказ на постредакцию машинного перевода поступил к нам в 2016 году. Сейчас такие проекты составляют почти треть от всего объема наших заказов. Не удивлюсь, если и другие переводческие компании столкнулись с аналогичным ростом спроса.

 

Насколько сейчас качество машинного перевода соответствует желаемому уровню?

Все очень индивидуально. Многое зависит от типа движка и от его «начинки» — данных, которые в него загружают. Если у движка достаточно данных по определенной тематике, то и с переводом он справляется неплохо, редактируемо. А если данных мало, нетрудно представить, что выдаст машина.

Если отходить от субъективных впечатлений, то можно опираться на метрику BLEU (Bilingual Evaluation Understudy). Она оценивает процент совпадений между машинным переводом и потсредакцией. Считается, что, чем выше балл, тем лучше перевод.

Мы сравнили несколько переводов с английского на русский язык от наших заказчиков по BLEU. Средняя оценка для статистического движка у нас составила 20 баллов, для нейронного — от 18 до 40 баллов. Ради любопытства мы сравнили по этой метрике перевод и редакцию документов, выполненные людьми, — получилось 88 баллов.

Так что машинному переводу на русский язык есть куда развиваться.

 
Какой из трёх движков машинного перевода (статистический, гибридный (Statistical + Rule-Based) и нейронный движки), на Ваш взгляд, наиболее популярен?

Наши клиенты постепенно отходят от использования статистических движков в сторону нейронных. Сначала нам еще поступали заказы на постредакцию переводов, выполненных статистическим движком, но качество было настолько низким, что клиентам пришлось прекратить его использование. 

Дело в том, что, помимо смысловых ошибок (пропусков и добавлений), статистический движок совершает в разы больше морфологических и синтаксических ошибок. Часто такой текст нужно не редактировать, а переводить заново.

Перевод, выполненный нейронным движком, напротив, звучит достаточно гладко. Но и в этом есть минусы: многие наши постредакторы отмечают, что смысловые ошибки или неединообразие в таких переводах сложнее обнаружить. Приходится быть особенно внимательным.

 

Почему в «АУМ» стали развивать именно это направление — постредакцию машинного перевода?

 Это требование времени и рынка. Машинный перевод — не будущее, а настоящее, нужно учиться с ним взаимодействовать.

 

 

Сколько времени требуется для качественной постредакции одной страницы машинного перевода на статистическом, гибридном, нейронном движках (по Вашему личному опыту)? Ощущается ли между ними заметная разница?

Уровень постредакции бывает разным: есть так называемая легкая постредакция, а есть полная. Клиенты обычно ожидают «human quality», то есть полную постредакцию. Это значит, что финальный текст должен быть неотличим от высококачественного человеческого перевода. Учитывая неоднородное качество исходного текста, наши постредакторы работают в среднем со скоростью 500 слов оригинала в час.

 

Поговорим об исполнителях. На что Вы в первую очередь обращаете внимание, рассматривая кандидата на должность редактора (из опыта агентства «АУМ»)?

Знакомство с кандидатом проходит в три этапа: отбор резюме, оценка тестового задания и оценка первых реальных работ.

На первом этапе мы смотрим, какой у кандидата опыт редактирования, какое образование, умеет ли он работать с CAT.

Если кандидат подходит, мы отправляем тестовое задание. Это самый важный фильтр. Штатные редакторы и вендор-менеджеры проверяют, все ли ошибки в тестовом переводе исправлены, не появилось ли после редакции новых, удалось ли улучшить стиль.

Если тест пройден успешно, мы добавляем кандидата в пул исполнителей и привлекаем уже к реальным проектам. На этом этапе для нас важно убедиться, что новый редактор умеет работать со справочными материалами, конструктивно реагирует на обратную связь и, самое главное, способен к обучению — может менять свой стиль работы и подстраиваться под требования клиента, сохраняя высокое качество.

 

Что Вы можете посоветовать молодому переводчику, собирающемуся работать в офисе? Он может быть уверен в том, что будет заниматься только переводами или, глядя в лицо реальности, ему надо быть готовым к тому, что основной частью его работы будет постредакция?

Это зависит от офиса и от самого переводчика. Конечно, машинного перевода становится больше, спрос на постредакцию растет, но пока что у машины и у человека разные задачи. Рекламные тексты, публицистику, юридические документы — за редким исключением все это переводят люди. У молодых специалистов сегодня даже больше возможностей: можно развиваться в переводах, можно попробовать себя в постредакции, а можно совмещать одно с другим.

 

Сталкивается ли агентство «АУМ» с той проблемой, что переводчики-фрилансеры стали в последнее время чаще присылать вместо своего перевода машинный? И при этом некоторые из них с надеждой полагают, что эта «замена» не обнаружится?

Да, такое случается, но редко. Если говорить о тестовых заданиях, то примерно на сто тестов два очевидно выполнены машиной. Такие тесты мы сразу отклоняем. Что касается исполнителей в пулах, такое не случается.

 

Как Вам кажется, в будущем машинный перевод будет на равных конкурировать с живым переводчиком?

Боюсь, нельзя измерить «среднюю температуру по больнице». Для некоторых типов текстов уже сейчас нет необходимости в «живом» переводчике, достаточно машины. Зайдите, например, на AliExpress или в техподдержку Microsoft. Параллельно с этим существуют такие работы, как, например, транскреация*. Не думаю, что машина способна справиться с этой задачей лучше человека.
Так что ответ на этот вопрос будет зависеть от конкретных потребностей рынка. Человек не конкурент машине в вопросах скорости и объемов, а машина — слабый конкурент человеку, когда нужны фантазия и качество.

Транскреация — это культурная адаптация текста, как правило, маркетингового, с учетом особенностей целевой культуры (прим. автора).

 

Какие главные рекомендации Вы можете дать по работе с машинным переводом?

Во-первых, нужно всегда держать в голове, что машина и человек ошибаются по-разному. В сравнении с человеческим, машинный перевод может быть очень «грязным». Поэтому иногда есть смысл начать с «уборки»: сделать автоматическую проверку орфографии, удалить лишние пробелы, проверить теги, цифры. Если в тексте есть шаблонные выражения, можно выполнить автозамены или подставить их вручную через фильтры.

Во-вторых, если уж машина не следит за единообразием, то мы-то точно должны. Здесь все зависит от инструментов, которые у вас под рукой. Можно завести проектный глоссарий и добавлять в него термины по ходу работы, чтобы они подсвечивались в следующих сегментах. Если в ПО нет такой функции, то при первом появлении термина можно отфильтровать сегменты с ним и исправить их во всех вхождениях.

В-третьих, сверяя оригинал с переводом, прежде всего нужно проверить, нет ли пропусков или добавлений, которыми грешит машинный перевод, а потом уже оценивать общий смысл.

И, наконец, давайте обратную связь. Если вам есть что сказать о качестве текста или вы заметили повторяющиеся ошибки, сообщите об этом заказчику.

 

Комментарии 0

Чтобы оставить комментарий, пожалуйста, войдите или зарегистрируйтесь

Обладатели международного сертификата ISO 17100

Поздравляем!