Category Archives: Выступления / доклады

SemanticAnalyzer is part of success story of YouScan

YouScan (www.youscan.biz), our partner, wins in the Growth nomination (success stories) at the largest international web contest and investor forum WebReady in Russia and gets an award for LeadScanner project at the first Startup AddVenture conference in Kiev. Congrats to the team! SemanticAnalyzer is honored to be part of this success!

Articles in Russian:
http://blog.youscan.ru/2013/12/youscan-web-ready.html
http://community.sk.ru/press/b/reporter/archive/2013/12/06/komanda-youscan-pokorila-startup-addventure-novym-proektom.aspx

Training on NLProc and Machine Learning

SemanticAnalyzer just did a training on NLProc (supposedly a better abbreviation for natural language processing than NLP) and Machine Learning for OK.ru (Russian “Facebook” like social network owned by Mail.Ru Group) in person in Saint-Petersburg, Russia.

OK.ru has a nice office not far from Petrogradskaya subway station in Saint-Petersburg (the central office is in Moscow).

OK office SPb

If you feel like your project is somewhat stuck and needs a fresh look or you need to widen you knowledge in NLProc and / or machine learning, feel free to contact us on info[@]semanticanalyzer.info. At the moment folks at SemanticAnalyzer can do this in Europe / western part of Russia. At SemanticAnalyzer we also offer a full package of services for natural language processing development in case there isn’t expertise in your house. This includes project scoping, breaking down by technical tasks, time estimation, development, testing / evaluation and delivery.

SentiScan – технология распознавания сентимента (тональной окрашенности сообщений)

На днях наш партнёр Youscan опубликовал интервью с моим участием о нашей совместной технологии распознавания сентимента или, говоря иначе, эмоциональной окрашенности в текстах. Эта задача известна теоретической и практической компьютерной лингвистике довольно давно и создано множество подходов. Традиционно выделяют две группы методов: 1) основанные на машинном обучении и статистике и 2) подходы, основанные на правилах. Есть ещё и методы соединения обоих подходов, а также новомодный алгоритм на нейронных сетях.

В технологии SentiScan мы также сочетаем оба подхода и добавляем нашу собственную изюминку: объектную ориентированность. Это не ООП (объектно-ориентированное программирование), а поиск именнованных сущностей и определение сентимента по отношению к ним. Список сущностей мы получаем из поисковых запросов пользователей, описывающих некий бренд, название продукта, имя человека или других явлений. Задача системы найти данные объекты в тексте, выделить сентиментный контекст и распознать сам сентимент.

Мы использовали методы машинного обучения для поиска полярных единиц, т.е. таких, которые имеют однозначное тональное значение — позитивное либо негативное. Примеры таких однозначно окрашенных единиц:

позитив
благородный
доход
изысканный
лояльный
необыкновенный
оперативный
передовой

 

негатив
абсурд
винить
вымогательство
грабеж
идиотский
нытье
отвратительный

 

Как можно заметить, в словарях присутствуют представители любых частей речи: не только имён прилагательных, но имён существительных, глаголов. Есть и наречия (отвратительно).

После того, как входной текст был разделён на отдельные предложения, алгоритм производит синтаксический анализ с целью определения объектов в тексте, а также их взаимного влияния. Правила синтаксического анализа подобраны специально для задачи распознавания сентимента и не подойдут, например, для некоторой общей задачи синтаксического анализа либо его применения (машинный перевод или spell-cheker).

В процессе синтаксического анализа производится наращивание информации и статистики о сентиментном потоке (его силе и полярном окрасе — позитив либо негатив) и его направленности на целевой объект. Накопив информацию об отдельных предложениях, алгоритм переходит на уровень текста, на котором вычисляется финальная информация. В итоге алгоритм выносит вердикт по всему тексту (который может также состоять и из одного предложения или даже слова): позитив либо негатив. Текст может быть также помечен и нейтральным флагом, в двух случаях:

1. В тексте не было ни одной тонально окрашенной единицы либо синтаксического противопоставления (объект А, но объект Б)

2. В тексте был смешанный сентимент и неясно, что хотел сказать своим высказыванием автор. В этом случае алгоритм может опционально поставить метку “смешанный сентимент”, то есть позитив+негатив.

У описанного здесь вкратце алгоритма есть также и отдельная функциональность определения объективности (“беспристрастноси”) и субъективности текста либо сообщения. Если автор текста не использует эмоционально окрашенных выражений, то его текст можно в целом считать объективным или беспристрастным. И субъективным, если использует. Распознавание субъективности автора может быть полезна тем брендам, которые ищут “подлинные” обзоры их продукции, т.е. опирающиеся на факты.

Попробовать эту систему в действии можно прямо сейчас и бесплатно, зарегистриовавшись на сайте (проще всего сделать логин, используя ваш аккаунт на GitHub).

SentiScan: интервью на блоге YouScan о технологии распознавания тональности

Наш клиент и партнёр YouScan, система для мониторинга упоминаний в социальных медиа, опубликовал интервью с участием Дмитрия Кана, ведущего исследователя и разработчика технологии со стороны SemanticAnalyzer Group.

кан ан

Приятного чтения!

Кстати, технология распознавания тонаьности в текстах (sentiment detection) в базовой реализации (без кастомизации) доступна в виде демо-пакета, см. документацию на странице Продуктов, Анализатор Тональности.

Доклад о проекте MTEngine на NLP семинаре

В конце марта Дмитрий Кан выступил на NLP семинаре, проходившем в петербургском офисе Яндекса, с докладом о проекте машинного переводчика MTEngine. Ознакомиться со слайдами и посмотреть долгожданное видео с семинара можно ниже. Приятного просмотра!

P.S.: и как всегда – мы рады любым вопросам по теме!

Слайды:

Видео:

О докладе на NLP семинаре в Яндексе

В марте, 29 числа, я сделал первый публичный доклад про MTEngine по приглашению Лиды Пивоваровой, одной из устроительниц NLP семинара (http://www.nlpseminar.ru). Доклад проходил в офисе Яндекса в Санкт-Петербурге. В аудитории было порядка 15 человек и велась видео-запись.

С самого начала я задумал сделать доклад без излишних научно-лингвистических подробностей проекта. Желающие и специалисты всегда могут почитать мою кандидатскую диссертацию (или автореферат). Напротив, хотелось рассказать о проекте в целом и попытаться заинтересовать самых разных людей. Было понятно, что далеко не всем будет интересно пытаться отличить семантику от синтаксиса и распознать предложно-падежные типы по визуальному представлению дерева разбора предложения.

В начале было демо. К нему я заготовил одно простое предложение на русском языке для перевода на английский:


Я пишу письмо другу.

Почему оно интересно с точки зрения машинного перевода? Потому что здесь нет предлога, который появляется (to) в английской версии этого предложения:


I write letter to a friend.

Мой изначальный план перейти сразу к слайдам провалился. Аудитория попросила ещё примеров. Ещё один интересный пример связан с семантикой. Или на английский манер: word sense disambiguation (WSD).

Вот он:


Я читаю предложение о работе.

Перевод:


I read proposal on work.

И его семантический сосед:


Я читаю предложение на русском языке.

И его перевод:


I read sentence in Russian language.

(все эти предложения и их переводы вы можете увидеть, войдя в систему).

Были ещё примеры, которые аудитория просила меня показать. Пожалуй, не стану их всех раскрывать в этом посте. Надеюсь, скоро будет видео-запись.

В слайдах я рассказал немного об истории машинного перевода. На мой взгляд, разбираться в таких, казалось бы “сугубо гуманитарных” вещах математикам и компьютерным лингвистам совсем не нужно, но это не совсем так. Или даже совсем не так. История вопроса позволяет понять, что уже было предпринято до нас. А история машинного перевода началась лет 60 назад. И сделано уже довольно много.

Потом я перешёл к некоторым проблемам (или подзадачам) машинного перевода на примерах переводов систем-участниц РОМИПа (www.romip.ru). В этом году на РОМИПе была впервые дорожка по машинному переводу, в которой я поучаствовал как переводчик и асессор. Собственно, делал это с той целью, чтобы лучше разобраться в задаче машинного перевода в контексте профессии переводчика. Не секрет, что профессионалы перевода сегодня используют помимо систем memory map (база переводов данного переводчика) и системы машинного перевода. Одна из возможностей ускорить процесс перевода — воспользоваться системой МП и сделать так называемый post-editing. Проще говоря, отредактировать результат машинного перевода. А вот переводить всё совсем с нуля — довольно утомительно. Собственно это я испытал, переведя пару десятков предложений на РОМИПе в системеhttp://translatedby.com/you/test-data-f … ru/trans/. Работа асессора оказалась не менее утомительной и сложной, но интересной лично мне тем, что можно было зафиксировать характерные проблемы машинного перевода. Часть из них (в анонимном режиме) я представил на докладе. Не стану их все пересказывать, а приведу лишь один, перекликающийся с примером о семантических соседях выше по тексту. Было две системы машинного перевода, которые перевели исходное предложение на английском языке так:

1-я система: Гарантии были даны, что грузовик, сцена, музыка и выступления – не говоря уже о барабанах, танцы и протест – не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.

2-я система: Гарантиям дали тот грузовик, стадию, музыку и речи – чтобы не упомянуть, что барабанили, танцуя, и протесту – не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.

Оригинал:

“Assurances have been given that truck, stage, music and speeches – not to mention drumming, dancing and protest – will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay,” the website said.

Таким образом, как и планировалось, я рассказал скорее о проблемах машинного перевода, чем о их решениях. Некоторые из них мы решаем в проекте MTEngine. Например, WSD :)

Пробовать перевод можно, зарегистрировавшись прямо на сайте. Пока готовится видео, слайды можно посмотреть здесь: http://www.slideshare.net/dmitrykan/mt- … lp-semniar

Наш семинар на mathlingvo.ru

5 декабря мы провели семинар в Санкт-Петербурге, где рассказали о теории семантико-синтаксического анализа русского языка. Также были затронуты вопросы использования нашей библиотеки морфологического анализа.
Было приятно выступать перед интересной и любознательной аудиторией! Особая благодарность организаторам семинара.