Category Archives: По-русски

Новая фича в RSA API: числовое представление тональности

Сегодня мы запустили новую фичу в продашкн: теперь в RSA API доступно числовое представление тональности.

Santorini

Santorini

Разберём на примере:

Проблемы со связью так и не решены.
Сегодня тестировали систему, вводили телефон билайн 89096593136, после чего 
поступал звонок, сообщали что это входящий звонок и далее абонент недоступен 
или находится вне зоны действия сети, хотя это не так. Тут же перезванивали 
на этот номер, просто с телефона и он был доступен. 
Проверяли ни один раз и все одно и тоже: через заявку на сайте он недоступен, 
если звонить просто с этой же трубки, то все ОК.

Здесь перечислен ряд проблем: с объектами “связь” и “заявка”, но есть и позитив: с объектом “номер”. Посмотрим, что выдаёт система по каждому из этих объектов.

{
"text": "Проблемы со связью так и не решены. Сегодня тестировали систему, вводили телефон билайн 89096593136, после чего поступал звонок, сообщали что это входящий звонок и далее абонент недоступен или находится вне зоны действия сети, хотя это не так. Тут же перезванивали на этот номер, просто с телефона и он был доступен. Проверяли ни один раз и все одно и тоже: через заявку на сайте он недоступен, если звонить просто с этой же трубки, то все ОК.",
"object_keywords": "связь",
"output_format": "json",
"include_strength": 1
}

Ответ системы:

{
"sentiment": "NEGATIVE",
"strength": "-2.0",
"synonyms": "[связь]"
}

Для “заявки” система выдаёт:


{
"sentiment": "NEGATIVE",
"strength": "-1.0",
"synonyms": "[заявка]"
}

И, наконец, по объекту “номер” получаем:


{
"sentiment": "POSITIVE",
"strength": "1.0",
"synonyms": "[номер]"
}

Что данная фича позволит делать вам, как клиентам RSA API?

  1. Моделировать собственную сетку меток тональности, например от hate / dislike до like / love.
  2. Анализировать разброс значений тональности и лучше понимать свои данные, возможно отсечь ненужные вам сообщения.
  3. Строить собственные модели машинного обучения, где числовая метка тональности будет одним из сигналов о тексте.

Надеемся, что это будет полезной фичей. Чтобы её задействовать, выставьте в true дополнительный булевский флаг в JSON: include_strength: “true”. Выходное число в поле strength никак не ограничено, но подчиняется простому правилу: чем ближе число к нулю, тем более нейтрально сообщение по отношению к данному объекту либо в целом, если объект не найден или не обнаружен.

Успехов в работе с RSA API!

Mashape

Insider API: тренды в realtime потоке данных

Представляем Вашему вниманию Insider API: загружайте посты из соц. медиа, получайте тренды и удивляйте пользователей: https://market.mashape.com/dmitrykey/insiderapi

InsiderAPI

Принцип применения API:

1. Загрузить данные (посты, статьи) в систему.

End-point: /articles/uploadJson
Тип запроса: POST
[
  {
   "id": 2134657,
   "title": "Оскар",
   "description": "Наши дети уже не поймут всех этих приколов про Лео и Оскар. Ушла эпоха. Мы - особое поколение.",
   "link": "https://twitter.com/palnom6/status/704979632127418369"
  }
]

В одном запросе можно переслать до 50 текстов. В ответ API отвечает кодом 200, если всё прошло успешно.

Обратите внимание на параметр id: по значению этого параметра мы получим привязку данного поста к определенной теме / тренду на следующем шаге.

2. Получить тренды: либо по документам в целом, либо в привязке к ключевым словам.

End-point: /articles/cluster
Тип запроса: POST
{
  "query": ""
}

В ответ API генерирует тренды.

[
  {
    "labels": [
      "Оскар"
    ],
    "score": 1.510325122396045,
    "docs": [
      "2134657",
      "2134656",
      "2134655",
      "2134654"
    ]
  },
  {
    "labels": [
      "Политика"
    ],
    "score": 1.2447816860782057,
    "docs": [
      "2134653",
      "2134652",
      "2134651",
      "2134650",
      "2134649",
      "2134648"
    ]
  }
]

Значение score отображает релевантность данной тематики запросу пользователя.

На шаге два можно передать и некоторое ключевое слово, вокруг которого будут построены темы / тренды.
Данный API является масштабируемой системой как в облаке, так и на ваших серверах.

В статье по этой ссылке можно найти скриншоты, иллюстрирующие работу API в составе UI Insider.

Распознавание адресов в текстах на русском языке

StreetDetectorLogo_1024x512

Мы рады сообщить о запуске нового API для обработки текста — StreetDetector API. Система позволяет извлекать улицы и номера домов из разнородных текстов на русском языке.

Основные возможности:

  1. Поддержка русской морфологии.
  2. Распознавание адресов в различных вариациях: Ленинский 22; ул. Льва Толстого, 16
  3. Извлечение всех адресов в данном тексте:

У Басманного тупика пробка. На проезде Апакова д.5 ремонт дороги.

[
  {
    "buildingNumber": "",
    "streetName": "Басманный тупик"
  },
  {
    "buildingNumber": "5",
    "streetName": "Апакова, проезд"
  }
]
Мы надеемся, что StreetDetector API будет полезен разработчикам самых различных систем, имеющих дело с текстами (отзывами пользователей, официальными документами и т.д.), а бесплатного теста в 300 сообщений будет достаточно, чтобы оценить качество API.

Insider API поиск трендов и быстрая навигация в текстах

Как часто, имея большой массив текстов (любой тематики) мы хотим увидеть тематическую выжимку? Какие темы обсуждаются? Какие наиболее популярные? Как было бы здорово ввести поисковые слова и получить тренды вокруг них!

Insider API призван решить как раз все эти задачи.

InsiderAPI

Система умеет:

  1. Получать массив данных и сохранять их под Вашим пользователем.
  2. Строить список тем с группировкой документов по темам.
  3. Делать realtime поиск по документам и строить темы по найденной выборке.

Все перечисленные функции доступны через API, которым легко воспользоваться, подключившись к одному из тарифных планов (есть бесплатный триал на месяц!).

Мы проиндексировали соц. медиа (твиттер, facebook, вконтакте) в начале осени 2015 года и сделали скриншоты системы для визуальной оценки.

Консьюмерский сегмент: Магнит.

Magnit

Yota:

Yota

Политика: выступление Путина в ООН.

UNO

Так выглядит тема изнутри:

UNO_expanded

На предыдущем скриншоте представлено содержимое темы “ООН 2015”, включающее 7 новостей.

Как видно из скриншотов, система представляет из себя полноценную поисковую систему (с поддержкой русской морфологии) и является отличным инструментом для быстрой навигации по огромным массивам информации. У нас нет ограничений по поддерживаемым тематикам и типу данных — соц. медиа, новостные ленты либо Ваши корпоративные документы. Все описанные функции доступны как в виде SAAS продукта с пользовательским интерфейсом, так и в составе Insider API, который можно встроить в Ваши существующие системы и мобильные приложения.

Релиз RSA API 3.0

В production запущена новая версия RSA API (RussianSentimentAnalyzer API) версии 3.0. Это значительный релиз по сравнению с предыдущими релизами, носившими более инкрементальный характер.

 

  1. Существенно улучшены алгоритмы определения объектной тональности. Теперь контекст целевого объекта в заданном тексте вычисляется ещё точнее. Поэтому передавать объекты в поле object_keywords стало как никогда важно (см. пред. пост).
  2. Добавлена возможность искать объекты произвольной сложности.
  3. Существенно переработаны полярные лингвистические единицы — с помощью них система реагирует на эмоциональную окрашенность в текстах.

 

Приведём пример текста и сложного объекта к нему, а также результат обработки на тональность:

Input:
{
  "text": "Я понимаю всю неловкость момента. Ведь уже накануне в Сети была целая серия рассказов очевидцев предыдущей репетиции Парада, которым показалось, что на танке были странные вмятины, что броня колыхалась на ветру, а из танка торчали какие-то нитки. И возникли серьезные подозрения, что перед нами катается не вполне танк, а некая картонно-фанерная демо-версия, концепт-кар, что это устройство может только ехать, но вряд ли сможет воевать.",
  "object_keywords": "очевидцев предыдущей репетиции Парада",
  "output_format": "json"
}
Output:
{

"sentiment": "NEGATIVE",

"synonyms": "[очевидцев предыдущей репетиции Парада]"

}

Помимо этого появилась новая фича, которая ещё не выведена в API: численная метка тональности. Это то число со знаком плюс или минус, на основе которого система решает какую метку тональности вернуть: POSITIVE или NEGATIVE, соответственно. Чем ближе к нулю данное число с двух сторон оси x, тем более нейтральная (либо смешанная, но равных сил) тональность в тексте. На основе данного числа и других численных параметров в ваших системах вы можете строить собственные модели тональности.

Как качественно анализировать объектную тональность при помощи RussianSentimentAnalyzer API

Привет!

В этой короткой заметке мы хотели бы уделить особое внимание тому, как RussianSentimentAnalyzer API анализирует тональность по отношению к конкретному объекту. Передача объекта в поле object_keywords значительно повышает качество получаемой разметки на тональность.

Рассмотрим текст, присланный одним из пользователей:

Проблемы со связью так и не решены. Сегодня тестировали систему, вводили телефон билайн номеризменён, после чего поступал звонок, сообщали что это входящий звонок и далее абонент недоступен или находится вне зоны действия сети, хотя это не так. Тут же перезванивали на этот номер, просто с телефона и он был доступен. Проверяли ни один раз и все одно и тоже: через заявку на сайте он недоступен, если звонить просто с этой же трубки, то все ОК.

В случае, если мы не передаём ни одного объекта, мы получаем NEGATIVE в качестве метки тональности всего текста. Однако в тексте видно, что присутствует и позитивная тональность.
Если передать объект “связь”, то получаем NEGATIVE метку тональности.
Для объекта “номер” мы получаем POSITIVE метку тональности.

Надеемся, что эта информация и пример окажутся вам полезны при работе с RussianSentimentAnalyzer API.

Команда SemanticAnalyzer

Партнёрство с SEUSLAB

Мы рады сообщить о нашем партнёрстве с компанией SEUSLAB (город Пермь).

logo

В настоящее время компания SEUSLAB работает в следующих направлениях:

– Разработка продукта, интернет сервиса SEUS, предназначенного для поиска, мониторинга и анализа больших данных (Big Data) из пространства социальной сети “ВКонтакте”.

  Продажа доступа к интернет сервису SEUS для поиска, мониторинга и анализа больших данных (Big Data) из пространства социальной сети “ВКонтакте”.

– Проведение исследовательских проектов в сфере Social Network Analysis с использованием больших данных (Big Data) из пространства социальной сети “ВКонтакте” в области социологии, маркетинга, политологии и иных сферах рынка.

Интернет сервис SEUS, разработанный компанией SEUSLAB активно используется в различных сферах рынка: недвижимости, образовании, маркетинге, а также в государственных органах власти.

Вместе с компанией Seuslab мы применяем на практике наши лингвистические системы, такие как API анализа тональности для русского языка.