Category Archives: Поиск

NEW API: ConnectedWords

Hello and Happy New Year!

New Year – New API. We have launched new API called ConnectedWords. We have trained a neural network using word2vec approach on a number of English texts. As input you can supply an array of keywords for which you’d like to get another list of connected or related words.

 

Available end-points:

Here is an example:

For word “launch” the API produces the following connected words:

[
“launched 0.5948931514907372”,
“ariane 0.5640206606244647”,
“icbm 0.532163213444619”,
“canaveral 0.5222400316699805”,
“rocket 0.5168188279637889”,
“launcher 0.5066764146199603”,
“suborbital 0.4987842348018603”,
“landing 0.49743730683360354”,
“expendable 0.49456818497947097”,
“agena 0.49325088465809586”,
“orbiter 0.4930563861239534”,
“shuttle 0.48127536803463045”,
“unmanned 0.47977178154360445”,
“launches 0.47013505662020805”,
“sputnik 0.4690193780888272”,
“bomarc 0.46608954818339043”,
“mission 0.4622460565342408”,
“redstone 0.4509777243147255”,
“gliders 0.4493604525398496”,
“missile 0.4388378398880377”,
“abort 0.4322835796211848”,
“rockets 0.4255249811253634”,
“lgm 0.42401975940492775”,
“launching 0.42055305756491634”,
“spacecraft 0.42044358977136653”,
“warhead 0.4203600640856848”,
“manned 0.4196165464952628”,
“skylab 0.417352627778655”,
“spaceflight 0.41261142646271765”,
“payloads 0.41167406251520333”,
“operational 0.41030200304930986”,
“refueling 0.41015588246409607”,
“orbit 0.4054650313323691”,
“extravehicular 0.4040691414909361”,
“icbms 0.4037563327101452”,
“hotol 0.4027989227897706”,
“sts 0.400049473907643”,
“saturn 0.399919637824496”,
“payload 0.398525218766963”,
“bm 0.3965859062493564”
]

How can one use the API?

1. Making your search engine smarter: expand the result set to documents containing related words. This helps you solve the issue of zero hit searches.

2. Spice up your writing. Are you a journalist / blogger / student and would like to add a flavour to your text? Send in a few words and get a set of words, that might help make your texts more interesting and engaging.

In the future we would like to add support for other languages and train on different types of texts, like social media, news, blogs etc. If you have more ideas for how to make the system more useful for your needs, get in touch!

Mashape

Insider API: тренды в realtime потоке данных

Представляем Вашему вниманию Insider API: загружайте посты из соц. медиа, получайте тренды и удивляйте пользователей: https://market.mashape.com/dmitrykey/insiderapi

InsiderAPI

Принцип применения API:

1. Загрузить данные (посты, статьи) в систему.

End-point: /articles/uploadJson
Тип запроса: POST
[
  {
   "id": 2134657,
   "title": "Оскар",
   "description": "Наши дети уже не поймут всех этих приколов про Лео и Оскар. Ушла эпоха. Мы - особое поколение.",
   "link": "https://twitter.com/palnom6/status/704979632127418369"
  }
]

В одном запросе можно переслать до 50 текстов. В ответ API отвечает кодом 200, если всё прошло успешно.

Обратите внимание на параметр id: по значению этого параметра мы получим привязку данного поста к определенной теме / тренду на следующем шаге.

2. Получить тренды: либо по документам в целом, либо в привязке к ключевым словам.

End-point: /articles/cluster
Тип запроса: POST
{
  "query": ""
}

В ответ API генерирует тренды.

[
  {
    "labels": [
      "Оскар"
    ],
    "score": 1.510325122396045,
    "docs": [
      "2134657",
      "2134656",
      "2134655",
      "2134654"
    ]
  },
  {
    "labels": [
      "Политика"
    ],
    "score": 1.2447816860782057,
    "docs": [
      "2134653",
      "2134652",
      "2134651",
      "2134650",
      "2134649",
      "2134648"
    ]
  }
]

Значение score отображает релевантность данной тематики запросу пользователя.

На шаге два можно передать и некоторое ключевое слово, вокруг которого будут построены темы / тренды.
Данный API является масштабируемой системой как в облаке, так и на ваших серверах.

В статье по этой ссылке можно найти скриншоты, иллюстрирующие работу API в составе UI Insider.

Insider API поиск трендов и быстрая навигация в текстах

Как часто, имея большой массив текстов (любой тематики) мы хотим увидеть тематическую выжимку? Какие темы обсуждаются? Какие наиболее популярные? Как было бы здорово ввести поисковые слова и получить тренды вокруг них!

Insider API призван решить как раз все эти задачи.

InsiderAPI

Система умеет:

  1. Получать массив данных и сохранять их под Вашим пользователем.
  2. Строить список тем с группировкой документов по темам.
  3. Делать realtime поиск по документам и строить темы по найденной выборке.

Все перечисленные функции доступны через API, которым легко воспользоваться, подключившись к одному из тарифных планов (есть бесплатный триал на месяц!).

Мы проиндексировали соц. медиа (твиттер, facebook, вконтакте) в начале осени 2015 года и сделали скриншоты системы для визуальной оценки.

Консьюмерский сегмент: Магнит.

Magnit

Yota:

Yota

Политика: выступление Путина в ООН.

UNO

Так выглядит тема изнутри:

UNO_expanded

На предыдущем скриншоте представлено содержимое темы “ООН 2015”, включающее 7 новостей.

Как видно из скриншотов, система представляет из себя полноценную поисковую систему (с поддержкой русской морфологии) и является отличным инструментом для быстрой навигации по огромным массивам информации. У нас нет ограничений по поддерживаемым тематикам и типу данных — соц. медиа, новостные ленты либо Ваши корпоративные документы. Все описанные функции доступны как в виде SAAS продукта с пользовательским интерфейсом, так и в составе Insider API, который можно встроить в Ваши существующие системы и мобильные приложения.

Training on NLProc and Machine Learning

SemanticAnalyzer just did a training on NLProc (supposedly a better abbreviation for natural language processing than NLP) and Machine Learning for OK.ru (Russian “Facebook” like social network owned by Mail.Ru Group) in person in Saint-Petersburg, Russia.

OK.ru has a nice office not far from Petrogradskaya subway station in Saint-Petersburg (the central office is in Moscow).

OK office SPb

If you feel like your project is somewhat stuck and needs a fresh look or you need to widen you knowledge in NLProc and / or machine learning, feel free to contact us on info[@]semanticanalyzer.info. At the moment folks at SemanticAnalyzer can do this in Europe / western part of Russia. At SemanticAnalyzer we also offer a full package of services for natural language processing development in case there isn’t expertise in your house. This includes project scoping, breaking down by technical tasks, time estimation, development, testing / evaluation and delivery.