Создание проектов и продвижение
вашего бизнеса
сегодня!

Новый алгоритм Яндекса «Палех» - нейронные сети помогают лучше понять запрос

04.11.2016

Российская поисковая система Яндекс запустила новый алгоритм — «Палех», созданный на основе нейронных сетей. С его помощью поисковая система должна лучше находить необходимые пользователю веб-страницы, ориентируясь не только на ключевые слова, но и на их смысл.

В чем же смысл нового алгоритма? Каждый день Яндекс обрабатывает более 200 миллионов запросов. Часть из них высокочастотные, вводятся едва ли не каждую секунду, есть среднечастотные, и есть уникальные – которые задают единожды и далее они не повторяются. Количество уникальных или редких запросов составляет порядка 100 миллионов в день.

Если внимательно изучить график частотного распределения запросов, то его можно представить в виде птицы, где клюв – это наиболее распространенные запросы, тело – среднечастотные и хвост – низкочастотные. Новый алгоритм создан для того, чтобы лучше отвечать на запросы наибольшей части – хвоста.

Сложность уникальных запросов в отсутствии поведенческой статистики, которая имеется для высоко- и среднечастотных ключевых фраз. Поэтому Яндексу сложнее понять, подходит ли данный запрос, при том, что не всегда на релевантной странице есть слова из запроса. Для решения проблемы были привлечены нейтронные сети — одна из технологий машинного обучения, демонстрирующая отличные результаты при анализе различных видов информации: изображений, звука, текста. Метод основан на анализе позитивных и негативных примеров, что в результате даёт способность нейросети верно определять требуемые объекты.

В новом алгоритме поисковой системы обучение производится в паре «запрос – заголовок», подбор примеров производится на основе имеющихся статистических данных. Основываясь на поведении посетителей алгоритм начинает «видеть» связь между смыслом, который пользователь заложил в запрос и тем, что вложено в заголовок страницы сайта. Для этих целей заголовки страниц переводятся в группы из 300 чисел каждая, а все документы из базы данных получили свою координату относительно 300-мерной оси.

В такой же набор чисел переводится и текст поискового запроса, чтобы разместить его в том же пространстве координат. И чем ближе они в итоге расположены, тем более релевантный ответ получает пользователь. Данный способ обработки называется «семантическим вектором» и он начал использоваться несколько месяцев назад, постепенно совершенствуясь для получения более точных ответов.