Category Archives: Projects

Research project on traditional and social media

Last month Insider has contributed to common research project with two other companies: ContextMedia (with 20+ years of traditional media analytics) and YouControl (with access to government data). Target of the research was to build a bio and semantic portrait of the Ukrainian politician Dmytro Svyatash in light of the law on car import in Ukraine. The interactive research results can be found here (in Russian).

Insider has used two own tools for unstructured text analytics: Insider API for realtime semantic topic creation (screenshots and description of the system are here) and RSA API for entity level sentiment analysis.

The resulting system, that was prototyped in under a week, allowed for:

  1. Navigating through years of data from 2002 to current moment using keyword searches.
  2. Understanding the sentiment distribution in the found corpora and for given search.
  3. Researching quantitative search trends using visual trend chart.
  4. Sifting through the produced semantic topics, grouping various news items together in search results.
  5. Getting the heart beat of twitter.

InsiderUI

In the process we relied on best open source tools, including Apache Tika, using which allowed us to swiftly convert HTML news articles into JSON format, preserving all important attributes of a news item: title, contents. We crafted and applied additionally own NER for extracting date of a publication to properly place it on the time scale.

Want to do a similar research on your own data? Get in touch: [email protected].

MTEngine: регистрация через сервис Loginza и переводческие задания

Всем привет и со всеми наступившими!

Работа над проектом-переводчиком MTEngine продолжается и мы рады объявить сразу о двух нововведениях:

1. С сегодняшнего дня войти на сайт и начать работать в лаборатории переводчика можно, используя свой любимый сервис на Яндексе, Вконтакте, Google и других! Всё это стало возможно благодаря сервису Loginza. Теперь адрес электронной почты не потребуется!

Сделать это можно, либо кликнув “Войти в систему” в правом верхнем углу сайта либо на оранжевую кнопку “Стать участником”.

enter_MTEngine

Здесь нужно кликнуть на кнопочку Войти… и выбрать свой любимый сервис — почтовый или соц. сеть.

 

 

register_at_MTEngine

Конечно, если вы используете в первый раз, например, сервис Вконтакте, то продолжайте использовать его и дальше. Так у вас будет доступ к накопленному Вами переводному словарю.

 

 

2. Мы запустили задания для пополнения переводного словаря и оценки качества перевода. Задания — это набор предложений на русском языке, которые нужно перевести, при необходимости откорректировать и оценить качество перевода.

translation_task

 

С их помощью мы надеемся всё больше улучшать качество переводчика MTEngine, который доступен всем желающим.

Успешных и качественных переводов!

Команда MTEngine

Пополнение переводного словаря MTEngine при помощи Multitran.ru

cross-post с блога сайта MTEngine.

Мы только что добавили новую фичу в пользовательский интерфейс: возможность обращаться к словарям multitran.ru.

Если после перевода предложения с русского на английский некоторые слова остались непереведёнными, обычно дело выделить слово и пойти в любимый online словарь, чтобы поискать перевод. Другой способ: сделать двойной клик по текстовому полю со словом, нажать CTRL+C, открыть в новом окошке браузера сайт со словарями, перевести, выбрать перевод и вернуться к окошку MTEngine. Многовато операций на одно слово! Теперь можно сделать так:

переводим предложение:

multitran_before

делаем двойной щелчок по интересуемому слову, получаем ссылку справа на multitran.ru:

multitran_after

по клику на ссылку переходим на сайт multitran:

multitran_itself

выбираем перевод и вставляем его вместо непереведённого слова. Нажимаем кнопочку Пополнить. Готово!

Хороших праздников и качественных переводов!

SemanticAnalyzer is part of success story of YouScan

YouScan (www.youscan.biz), our partner, wins in the Growth nomination (success stories) at the largest international web contest and investor forum WebReady in Russia and gets an award for LeadScanner project at the first Startup AddVenture conference in Kiev. Congrats to the team! SemanticAnalyzer is honored to be part of this success!

Articles in Russian:
http://blog.youscan.ru/2013/12/youscan-web-ready.html
http://community.sk.ru/press/b/reporter/archive/2013/12/06/komanda-youscan-pokorila-startup-addventure-novym-proektom.aspx

Training on NLProc and Machine Learning

SemanticAnalyzer just did a training on NLProc (supposedly a better abbreviation for natural language processing than NLP) and Machine Learning for OK.ru (Russian “Facebook” like social network owned by Mail.Ru Group) in person in Saint-Petersburg, Russia.

OK.ru has a nice office not far from Petrogradskaya subway station in Saint-Petersburg (the central office is in Moscow).

OK office SPb

If you feel like your project is somewhat stuck and needs a fresh look or you need to widen you knowledge in NLProc and / or machine learning, feel free to contact us on info[@]semanticanalyzer.info. At the moment folks at SemanticAnalyzer can do this in Europe / western part of Russia. At SemanticAnalyzer we also offer a full package of services for natural language processing development in case there isn’t expertise in your house. This includes project scoping, breaking down by technical tasks, time estimation, development, testing / evaluation and delivery.

Новая фича MTEngine: задания

Прошли отпуска, и мы начали работу над новой фичей для проекта машинного онлайн переводчика MTEngine, которую сегодня добавили в тестовую версию сайта (http://www.semanticanalyzer.info/mtengine_test).

До этой фичи пользователям было необходимо рыскать на просторах Сети и искать предложения на русском языке для перевода. Теперь это делать совсем необязательно. Чтобы перейти к заданиям, нужно выбрать вкладку “Выполнить задание”. По клику “Следующее” с сервера подгружается следующее предложение из корпуса. Переводим как обычно и пополняем / корректируем переводной словарь.

2013-07-27_2149

Фича в разработке, но уже сейчас её можно потестировать. Комментарии, отзывы и предложения приветствуются!

Команда MTEngine

Лингвистика и статистический машинный перевод

Данный пост — кросспост с нового блога проекта MTEngine: http://semanticanalyzer.info/mtengine/mtblog/

В этом иллюстративном посте мы рассмотрим на примере нескольких языковых направлений перевода те грамматические сложности, с которыми сталкиваются системы статистического машинного перевода (впрочем, системы основанные на правилах сталкиваются с теми же задачами). Языки: русский, японский, финский и английский.

Для иллюстрации, я использовал переводчик Google Translate (кратко GT). Этот переводчик вполне сносно справляется с переводом между достаточно близкими языками. Под «достаточно близкими» я подразумеваю такие языковые пары, которые обладают большим пересечением словарных единиц (с точностью до их перевода на оба языка из данной пары), имеют схожий порядок слов, уровень морфологического разнообразия и другие грамматические особенности.

Давайте рассмотрим пример языковой пары, на которой GT особенно хорош. Метод round-trip — один из методов проверки близости двух языков, по крайней мере «статистической близости». Им и воспользуемся:

(все примеры перевода ниже получены только при помощи переводчика)

Английский: I am in a shop.
Голландский: Ik ben in een winkel.
Обратно на английский: I’m in a store. (достаточно хорошо)

Английский: I danced into the room.
Голландский: Ik danste in de kamer.
Обратно на английский: I danced in the room. (проблема с предлогом)

Теперь рассмотрим пару языков, удалённых друг от друга в смысле перечисленных выше критериев: морфология и порядок слов (заметим в скобках: когда мы утверждаем, что языки грамматически удалены, они могут быть удалены и семантически и даже прагматически: различные языки создавались людьми для конкретных целей в те или иные исторические моменты). Одна из таких пар — английский и финский:

Финский: Hän on kaupassa.
Английский: He is in the shop.
Обратно на финский: Hän on myymälä. (практически оригинальное предложение на финском по-смыслу)

В этом примере присутствует местоимение hän, не имеющее пола. Данная (анафорическая либо катафорическая) ссылка должна разрешаться с вовлечением большего, чем одно предложение, контекста: где-то в тексте перед или после этого предложения есть упоминание её объекта. Перевод на уровне предложений в данном случае есть ограничение само по себе. Местоимения могут быть полезны, если мы хотим разобраться, как взаимодействуют объекты в тексте на иностранном языке.

Давайте возьмём ещё одну пару дистантных языков: английский и русский.

Русский: Маска бывает правдивее и выразительнее лица.
Английский: The mask is truthful and expressive face. (должно было быть: The mask can be more truthful and expressive than face)
Обратно на русский: Маска правдивым и выразительным лицом.

Русский язык обладает довольно богатой морфологией и может, например, передать падеж или предложно-падежный тип окончанием слова. Такие тонкости языка довольно сложно распознать накапливая только статистические данные по параллельным корпусам. Существуют методы по комбинированию лингвистики и статистики.

Напоследок рассмотрим ещё одну пару довольно дистантных языков: английский и японский.

Английский: Reporters said that IBM has bought Lotus. (Репортёры сообщили, что IBM купила Lotus)
Японский: 記者は、IBMがロータスを買っていると述べた。
обратно на английский: The reporter said that IBM Lotus are buying.

Японский имеет «рекурсивный синтаксис», который исходное английское предложение представляет таким образом:

Reporters (IBM Lotus has bought) that said. = Репортёры (IBM Lotus купила) что сообщили.

Т.е. имеется связка S-O-V (Субъект-Объект-Глагол) на уровне всего предложения и его отдельных компонент (например, придаточных предложений).

Таким образом, чтобы корректно переводить между английским и японским, в статистический переводчик нужно встроить метод соотнесения синтаксических структур (шаблонов) и вести перевод по более строгим правилам, чем позволяют статистические методы, применяемые на данный момент.