Наш пример постмашинного редактирования

Я часто слышу про все возрастающую роль машинного перевода в нашей практике. Мол, нейронные сети гугл переводчика итд итп. Да, прогресс не стоит на месте. 15 лет назад даже TRADOS казался фантастикой, а теперь это рабочий инструмент. Гугл переводчик 5 лет назад выдавал совсем бред, а теперь если перевод идет между языками со схожей структурой, ну или текст «гуглоперевариваемый», то на выходе может получиться что-то адекватное, НО, это, при условии еще и постмашинного редактирования.

За последние несколько месяцев наше агентство выполнило несколько «постмашин», не скажу что даже после прогона через редактора, текст был идеален. Стоит сразу оговориться, что клиенту было нужно именно постмашина, потому что нужно все было быстро и для внутреннего пользования, и редактору на вычитку давалось всего пару часов. Развивая эту услугу, я проэкспериментировал с постмашинной вычиткой англоязычной статьи. Ниже приведен результат, скажу сразу – это перевод, даже не транскриэшн, поэтому чтобы статья была абсолютной, тут еще необходима правка и вычитка копирайтером/писаталем, но об этом эксперименте, я напишу в другом посте.

Машинный перевод

Постмашинное редактирование

What Is Machine Translation?

Что такое машинный перевод и с чем его едят?

Машинный перевод (MT) - это автоматический перевод. Это процесс, посредством которого компьютерное программное обеспечение используется для перевода текста с одного естественного языка (например, английского) на другой (например, на испанский)

Машинный перевод (MT) - это перевод, выполняемый посредством специального программного обеспечения, разработанного с целью перевода текста с одного языка (например, английского) на другой (например, на испанский)

Для обработки любого перевода, человеческого или автоматизированного, смысл текста на исходном (исходном) языке должен быть полностью восстановлен на целевом языке, то есть в переводе. Хотя на первый взгляд это кажется простым, это намного сложнее. Перевод - не простая замена слова. Переводчик должен интерпретировать и анализировать все элементы в тексте и знать, как каждое слово может влиять на другое. Это требует обширного опыта в грамматике, синтаксисе (структуре предложения), семантике (значениях) и т. Д. На исходном и целевом языках, а также знакомстве с каждым местным регионом.

Перевод, будь он выполнен человеком или машиной, подразумевает интерпретацию текста на языке оригинала (т.е. исходном) и воссоздание эквивалентного ему текста на другом языке, т.е. языке перевода. На первый взгляд кажется, что это очень просто, но на самом деле все намного сложнее. Перевод - не простая замена слов с одного языка на другой. Переводчик должен осмысливать и анализировать текст по частям, а также знать, как каждое отдельное слово может изменять смысл всего предложения. Для этого требуется большой опыт и хорошие знания грамматики, синтаксиса (особенностей построения предложений), семантики (смыслового значения слов) и т. д. как исходного, так и целевого языка. Помимо этого важно знать культуру и традиции носителей обоих языков.

Человеческий и машинный перевод имеют свою долю проблем. Например, ни один отдельный переводчик не может производить идентичные переводы одного и того же текста в одной языковой паре, и для удовлетворения удовлетворенности клиентов может потребоваться несколько раундов ревизий. Но большая проблема заключается в том, как машинный перевод может производить публикации для качественного перевода.

Стоит учитывать, что перевод, выполненный человеком, как и перевод, выполненный программой, не всегда бывает идеален. Например, два отдельных переводчика не могут выполнить идентичные переводы одного и того же текста в одной языковой паре, поэтому для удовлетворения потребностей заказчика может потребоваться редактировать этот текст еще несколько раз. Но основная проблема заключается в том, что компьютерная программа все равно не может производить перевод, пригодный по своему качеству для дальнейшей публикации.

Rule-Based Machine Translation Technology

Что такое МПБЛП

Механический перевод на основе правил основан на бесчисленных встроенных лингвистических правилах и миллионах двуязычных словарей для каждой языковой пары.

Машинный перевод на базе лингвистических правил (МПБЛП) основан на использовании многочисленных встроенных лингвистических правилах и миллионах двуязычных глоссариев и словарей по каждой языковой паре.

Программное обеспечение анализирует текст и создает переходное представление, из которого генерируется текст на целевом языке. Этот процесс требует обширных лексиконов с морфологической, синтаксической и семантической информацией и большими наборами правил. Программное обеспечение использует эти сложные наборы правил, а затем передает грамматическую структуру исходного языка на целевой язык.

Программное обеспечение проводит грамматический разбор текста и создает каркас, из которого составляется текст на целевом языке. Этот процесс требует применения объемных словарей, содержащих морфологическую, синтаксическую и семантическую информацию, а также лингвистических правил. Программное обеспечение использует эти правила, чтобы преобразовать грамматическую структуру исходного языка в структуру языка перевода.

Переводы основаны на гигантских словарях и сложных языковых правилах. Пользователи могут улучшить качество перевода из коробки, добавив свою терминологию в процесс перевода. Они создают пользовательские словари, которые переопределяют настройки системы по умолчанию.

Переводные тексты складываются из слов и терминов, взятых из гигантских словарей с учетом сложных языковых правил. Пользователи могут улучшить качество перевода, добавляя свои глоссарии в память перевода и, таким образом, изменяя настройки системы по умолчанию.

В большинстве случаев есть два этапа: первоначальные инвестиции, которые значительно повышают качество с ограниченными затратами и текущие инвестиции для постепенного увеличения качества. В то время как основанный на правилах MT приводит компании к порогу качества и за его пределами, процесс улучшения качества может быть долгим и дорогостоящим.

В большинстве случаев этот процесс проходит в два этапа: первоначальные вложения, которые значительно повышают качество при ограниченных затратах, а затем текущие вложения для последующего непрерывного повышения качества. Машинный перевод на базе лингвистических правил позволяет компаниям достичь очень высокого качества, но сам процесс улучшения качества может быть долгим и дорогостоящим.

Statistical Machine Translation Technology

Технология статического МП

Статистический машинный перевод использует модели статистического перевода, параметры которых основаны на анализе одноязычных и двуязычных корпусов. Построение статистических моделей перевода является быстрым процессом, но технология в значительной степени опирается на существующие многоязычные корпорации. Требуется минимум 2 миллиона слов для определенного домена и даже больше для общего языка. Теоретически можно достичь порога качества, но большинство компаний не имеют таких больших объемов существующих многоязычных корпораций для создания необходимых моделей перевода. Кроме того, статистический машинный перевод имеет интенсивность процессора и требует обширной аппаратной конфигурации для запуска моделей перевода для средних уровней производительности.

Статистический машинный перевод (СМП) основан на поиске наиболее подходящего варианта перевода с использованием данных, полученных из дву- или многоязычной совокупности текстов. Построение «статистических моделей» перевода проходит достаточно быстро, но для этого в памяти перевода должно содержаться очень большое количество переведенных текстов/сегментов. Перевод текста определенной тематики с общеразговорного языка требует наличия в программе более 2 миллионов слов минимум. Теоретически, при этом можно достичь достаточно высокого уровня качества, но большинство компаний не располагают такими большими объемами переведенных многоязычных документов для создания необходимых моделей. Кроме того, статистический машинный перевод работает с интенсивной вычислительной нагрузкой на центральный процессор и требует сложной конфигурации технических средств для составления моделей перевода, которые смогли бы гарантировать средние показатели эффективности.

 

МПБЛП vs СМП – что выбрать?

Rule-based MT обеспечивает хорошее качество вне домена и по своей природе предсказуемо. Настройка на основе словарей гарантирует улучшение качества и соответствие корпоративной терминологии. Но результаты перевода могут не хватить, как ожидали читатели. Что касается инвестиций, цикл настройки, необходимый для достижения порога качества, может быть долгим и дорогостоящим. Высокая производительность даже на стандартном оборудовании.

Машинный перевод на базе лингвистических правил обеспечивает хорошее качество перевода простых текстов, смысл которых очевиден. Персонализация посредством добавления новых словарей способствует значительному улучшению качества, гарантируя соответствие корпоративной терминологии. Но конечный перевод может оказаться нечитабельным и неестественным. Что касается инвестиций, цикл персонализации, необходимый для достижения определенного уровня качества, может оказаться долгим и дорогостоящим. Но производительность будет высокой даже на стандартном оборудовании.

Статистический МТ обеспечивает хорошее качество при наличии больших и квалифицированных корпусов. Перевод носит свободно, что означает, что он хорошо читается и, следовательно, отвечает ожиданиям пользователей. Однако перевод не является ни предсказуемым, ни последовательным. Обучение из хороших тел автоматизировано и дешевле. Но обучение на общих языковых носителях, то есть текст, отличный от указанного домена, оставляет желать лучшего. Кроме того, статистическая MT требует значительного оборудования для создания и управления большими моделями переводов.

Статистический МП обеспечивает хорошее качество при наличии большого количества переведенных документов данной компании. Перевод получится более естественным, то есть он будет легко читаться и, следовательно, будет отвечать ожиданиям заказчиков. Однако результат перевода непредсказуем, и отдельные тексты могут получиться бессвязными. При наличии хорошей основы автоматизированный перевод не требует больших капиталовложений. Но при переводе документов с общеразговорных языков, отличных от указанной тематики, результат оставляет желать лучшего. Кроме того, статистический МП требует наличия сложных программ для создания и управления многочисленными моделями переводов.

Учитывая общие требования, существует четкая потребность в третьем подходе, благодаря которому пользователи получат лучшее качество перевода и высокую производительность (аналогично MT на основе правил) с меньшими инвестициями (аналогично статистическому MT).

Учитывая общие требования, существует определенная потребность в третьем подходе, благодаря которому пользователи смогут получить высококачественный перевод при высокой производительности (аналогично машинному переводу на базе лингвистических правил) и минимальных инвестициях (аналогично статистическому MП).

Оригинал - http://www.systransoft.com/systran/translation-technology/what-is-machine-translation/

noChildren

Наши клиенты