02 ноября 2016, 15:16

"Яндекс" запустил алгоритм поиска для уникальных запросов

Фото: YAY/ТАСС

Новый алгоритм поиска под названием "Палех" запустила компания "Яндекс", сообщается в блоге IT-корпорации. Он позволит поисковику точнее отвечать пользователям, отыскивая нужные страницы не только по ключевым словам, но и смыслу запроса. Модель поиска построена на основе нейронных сетей.

"Палех" позволит поисковику лучше отвечать на уникальные и редкие запросы пользователей. А свое название он получил из-за внешнего вида графика распределения запросов.

Как пояснили в компании, поисковик ежедневно отвечает примерно на 280 миллионов запросов. Небольшую их часть составляют распространенные слова и словосочетания, которые люди вводят в поисковую строку почти каждую секунду. Помимо них поисковик получает около 100 миллионов уникальных или, как их еще называют, низкочастотных запросов ежедневно.

График распределения поиска в "Яндексе" представляют в виде птицы, у которой есть клюв, туловище и длинный хвост. Список часто поступающих запросов не велик – это "клюв" птички. Запросы средней частотности образуют "туловище". Низкочастотные запросы встречаются чрезвычайно редко, но вместе составляют существенную часть потока и поэтому складываются в "длинный хвост".

Среди уникальных вопросов пользователей специалисты компании выделили несколько групп. Первая – запросы от детей, которые часто обращаются к поиску, как к живому собеседнику: "дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика". Запросы от людей, которые хотят узнать название фильма или книги по запомнившемуся эпизоду: "фильм про человека который выращивал картошку на другой планете" или "фильм где физики рассказывали даме про дейтерий".

Все эти письма и описания сложны для поисковой системы. Поэтому специалисты "Яндекса" решили подключить к решению задачи нейронные сети.

Сеть будет учиться на положительных и отрицательных примерах поиска по сложным запросам. Основываясь на поведении пользователей, нейросеть научится различать смысловое соответствие между запросом и заголовгками страниц. При этом система сначала перевела заголовки страниц в группы из трехсот чисел, чтобы облегчить для себя их понимание. В результате все документы из базы данных "Яндекса" получили координаты в трехсотмерном пространстве.

В набор чисел можно перевести и текст поискового запроса. Тогда он попадает в то же пространство координат, что и веб-страница. Чем ближе они будут расположены друг к другу, тем лучше страница отвечает на запрос.

Такой способ обработки запроса и его сопоставления с вероятными ответами специалисты называют семантическим вектором. Он хорошо работает в тех случаях, когда запрос относится к области "длинного хвоста". Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, можно понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова.

Алгоритм начали тестировать несколько месяцев назад, постепенно развивая и улучшая лежащие в его основе нейронные модели.

технологии поисковики алгоритмы нейронные сети

Новости СМИ2