SemanticAnalyzer & YouScan на AI Ukraine’14

SemanticAnalyzer принял участие в международной конференциии по искусственному интеллекту AI Ukraine’14, проходившей в Харькове.

Фото аудитории

Фото аудитории

Это была прекраснейшая возможность развиртуализироваться со специалистами в машинном обучении, рекуррентных нейронных сетях, компьютерной лингвистике, рекомендательных системах и других сопряжённых областях науки и практики.

Наш CEO Дмитрий Кан сделал совместный доклад с CTO компании YouScan Леонидом Литвиненко о системе SentiScan, которую мы разработали для мониторинга тональности в соц. медиа.

Дмитрий Кан, CEO SemanticAnalyzer (фото: Александр Панченко)

Леонид Литвиненко, CTO YouScan

Леонид Литвиненко, CTO YouScan

В докладе мы сфокусировались на двух main messages, которые хотели сообщить аудитории:

1. Алгоритмы определения тональности по отношению к объекту мониторинга, основанные на правилах, дают контроль, необходимый в боевых условиях (production). При этом есть рабочие методы машинного обучения, которые позволяют пополнять тональные лексиконы, а также делать лингвистические исследования новых данных в поиске тональных трендов. А на уровне правил для определения тональности в наиболее сложных случаях (см. слайды) кроме прочих вещей всегда работает мультипасс (многопроходный алгоритм). Ну, помните, тот самый мультипасс, который был у Лилу из фильма Пятый элемент?

Leeloo multipass

2. Оценка качества алгоритма анализа тональности (и любого алгоритма ИИ в целом) является не менее важной, чем сам алгоритм. Мы тестируем качество самыми разнообразными способами, включая известные precision & recall, а также менее известные, такие как moving average precision & moving average recall, также sampling по наиболее частотным n-граммам. Инженеры YouScan разработали систему оценки с веб-интерфейсом и золотым тестовым сетом. Для поиска оптимальной конфигурации алгоритма мы используем A / B тестирование наборов параметров, которые влияют на качество: учёт заголовков, эмотиконов, слов тональных бустеров и т.д. Система SentiScan получает живой поток исправлений тональных меток от клиентов, на основе которого производятся регулярные улучшения алгоритма.

Дмитрий Кан

Дмитрий Кан, CEO SemanticAnalyzer Group

После доклада было много вопросов из аудитории, касающихся деталей работы алгоритма, а также аспектов системы SentiScan при работе с доменами (например, banking).

Дмитрий рассказывает о применении deep learning к задаче анализа тональности

Дмитрий рассказывает о применении deep learning к задаче анализа тональности

Мы ждём видео, а пока можно ещё раз пролистать слайды:

На конференции была отличная возможность пообщаться и обменяться опытом со всеми заинтересованными в компьютерной лингвистике и текстовой аналитике людьми. Уровень качества вопросов из аудитории на нашем и других докладах явно говорил о серьёзной подготовке специалистов.

Надеемся, что наш доклад был полезен молодому поколению компьютерных лингвистов, пробующих или желающих попробовать свои силы в создании прикладных систем анализа естественных языков.

Спасибо организаторам AI Ukraine’14 за отличный AI event и атмосферу & hopefully see you next year!

DmitryKan_speaker_AI_Ukraine_2014