Tag Archives: NLP семинар в Яндексе

Доклад о проекте MTEngine на NLP семинаре

В конце марта Дмитрий Кан выступил на NLP семинаре, проходившем в петербургском офисе Яндекса, с докладом о проекте машинного переводчика MTEngine. Ознакомиться со слайдами и посмотреть долгожданное видео с семинара можно ниже. Приятного просмотра!

P.S.: и как всегда – мы рады любым вопросам по теме!

Слайды:

Видео:

О докладе на NLP семинаре в Яндексе

В марте, 29 числа, я сделал первый публичный доклад про MTEngine по приглашению Лиды Пивоваровой, одной из устроительниц NLP семинара (http://www.nlpseminar.ru). Доклад проходил в офисе Яндекса в Санкт-Петербурге. В аудитории было порядка 15 человек и велась видео-запись.

С самого начала я задумал сделать доклад без излишних научно-лингвистических подробностей проекта. Желающие и специалисты всегда могут почитать мою кандидатскую диссертацию (или автореферат). Напротив, хотелось рассказать о проекте в целом и попытаться заинтересовать самых разных людей. Было понятно, что далеко не всем будет интересно пытаться отличить семантику от синтаксиса и распознать предложно-падежные типы по визуальному представлению дерева разбора предложения.

В начале было демо. К нему я заготовил одно простое предложение на русском языке для перевода на английский:


Я пишу письмо другу.

Почему оно интересно с точки зрения машинного перевода? Потому что здесь нет предлога, который появляется (to) в английской версии этого предложения:


I write letter to a friend.

Мой изначальный план перейти сразу к слайдам провалился. Аудитория попросила ещё примеров. Ещё один интересный пример связан с семантикой. Или на английский манер: word sense disambiguation (WSD).

Вот он:


Я читаю предложение о работе.

Перевод:


I read proposal on work.

И его семантический сосед:


Я читаю предложение на русском языке.

И его перевод:


I read sentence in Russian language.

(все эти предложения и их переводы вы можете увидеть, войдя в систему).

Были ещё примеры, которые аудитория просила меня показать. Пожалуй, не стану их всех раскрывать в этом посте. Надеюсь, скоро будет видео-запись.

В слайдах я рассказал немного об истории машинного перевода. На мой взгляд, разбираться в таких, казалось бы “сугубо гуманитарных” вещах математикам и компьютерным лингвистам совсем не нужно, но это не совсем так. Или даже совсем не так. История вопроса позволяет понять, что уже было предпринято до нас. А история машинного перевода началась лет 60 назад. И сделано уже довольно много.

Потом я перешёл к некоторым проблемам (или подзадачам) машинного перевода на примерах переводов систем-участниц РОМИПа (www.romip.ru). В этом году на РОМИПе была впервые дорожка по машинному переводу, в которой я поучаствовал как переводчик и асессор. Собственно, делал это с той целью, чтобы лучше разобраться в задаче машинного перевода в контексте профессии переводчика. Не секрет, что профессионалы перевода сегодня используют помимо систем memory map (база переводов данного переводчика) и системы машинного перевода. Одна из возможностей ускорить процесс перевода — воспользоваться системой МП и сделать так называемый post-editing. Проще говоря, отредактировать результат машинного перевода. А вот переводить всё совсем с нуля — довольно утомительно. Собственно это я испытал, переведя пару десятков предложений на РОМИПе в системеhttp://translatedby.com/you/test-data-f … ru/trans/. Работа асессора оказалась не менее утомительной и сложной, но интересной лично мне тем, что можно было зафиксировать характерные проблемы машинного перевода. Часть из них (в анонимном режиме) я представил на докладе. Не стану их все пересказывать, а приведу лишь один, перекликающийся с примером о семантических соседях выше по тексту. Было две системы машинного перевода, которые перевели исходное предложение на английском языке так:

1-я система: Гарантии были даны, что грузовик, сцена, музыка и выступления – не говоря уже о барабанах, танцы и протест – не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.

2-я система: Гарантиям дали тот грузовик, стадию, музыку и речи – чтобы не упомянуть, что барабанили, танцуя, и протесту – не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.

Оригинал:

“Assurances have been given that truck, stage, music and speeches – not to mention drumming, dancing and protest – will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay,” the website said.

Таким образом, как и планировалось, я рассказал скорее о проблемах машинного перевода, чем о их решениях. Некоторые из них мы решаем в проекте MTEngine. Например, WSD :)

Пробовать перевод можно, зарегистрировавшись прямо на сайте. Пока готовится видео, слайды можно посмотреть здесь: http://www.slideshare.net/dmitrykan/mt- … lp-semniar