О новом алгоритме Яндекса «Палех» простыми словами

paleh

На днях мы провели внутренний семинар о новом алгоритме «Палех» от Яндекса. И я решил опубликовать в блоге 3 основные темы семинара. Некоторые вещи упрощены для лучшего понимания большинства читателей.

Задавайте ваши вопросы в комментариях к посту. Постараюсь разъяснить непонятные моменты.

 

1. Чем отличаются текстовые алгоритмы со словарями от алгоритмов на основе нейронных сетей?

В простых текстовых алгоритмах тематические слова находятся в соответствующих тематических словарях. Туда же можно отнести словарь синонимов. Допустим, в поисковой фразе есть слово «телефон». В словаре синонимов есть слово «мобильник», а в словаре тематических слов будет слово «дисплей». И наличие этих слов в контенте положительно скажется на оценку текстовой релевантности страницы по запросу «телефон».

Что происходит, если в тексте есть слово «матрица», а в тематическом словаре алгоритма его нет? Такое слово получит баранку (оценка = 0), а весь текст потеряет в текстовой релевантности. Хотя всем понятно, что слово «матрица» имеет какое-то отношение к слову «телефон». Просто связь чуть сложнее: «телефон» < > «дисплей» < > «матрица».

По факту термин-N связан с термином-M в какой-то степени. Чем сильнее связь искомого термина с термином из контента, тем больший вклад в текстовую релевантность вносит термин. Чтобы оценивать силу этих связей, поисковые системы строят нейронные сети:

h12mf

Термины «нож» и «х12мф» тоже связаны: из стали марки х12мф часто изготавливают ножи.

 

А чем дальше слова друг от друга, тем хуже их связь. Тем меньше они связаны по смыслу. Понимаете?

Нейронную сеть выстраивают алгоритмы машинного обучения – «Матрикснет» в Яндексе. Для его обучения и построения сложной сети связей алгоритму показывают хорошие и плохие примеры связей. Далее алгоритм обучается сам, учитывая такие примеры.

 

2. О приоритете слов в поисковых фразах

Допустим, в поисковую систему приходит фраза «диван ежевичный».

Поисковая система оценивает важность каждого слова для всего поискового запроса. Например, по количеству упоминаний термина в общей или тематической базе слов. Допустим, окажется что слово «диван» – частое, а «ежевичный» — редкое. Значит, значимость слова «ежевичный» в этой фразе больше, чем слово «диван». К примеру, отношение — 75% («ежевичный») на 25% («диван»).

Что это значит? Мы можем уделить 120% внимания только слову «диван». И будем ниже страницы со словом «ежевичный». А если наоборот, то шансы значительно выше. Надеюсь, понятно.

Кстати, я составил внутреннюю памятку для копирайтеров по разбору ключевых фраз. Кому нужно – пишите на мою почту rustem@etaktika.ru с темой «Памятка по разбору ключевых фраз».

 

3. Про добавление в тексты слов из Wordstat и частых слов из SERP’а

Поясню о чём идёт речь. Чтобы насытить текст тематическими ключевыми словами, некоторые SEO’шники ищут тематические фразы в wordstat.yandex.ru и часто встречающиеся слова из поисковой выдачи. Так, получается, что по фразе «купить диван кровать» можно найти тематические слова: софа, мягкий, каркас, угловой и т.д. И в целом идея верная, эти слова скорее всего тематические.

Тут есть два «но»:

  • «Но» #1. Не всегда найденные такими способами слова относятся к самым приоритетным словам из поискового запроса. А значит и к настоящему смыслу поискового запроса. Об этом мы говорили в предыдущем вопросе. Могут найтись тематические слова для слова «диван», а не для слова «ежевичный». И насыщение ими текста даёт относительно небольшой вклад в оценку текстовой релевантности по фразе.
  • «Но» #2. Факт использования этих слов делает текст тематическим, но НЕ делает его отвечающим на запрос. И часто копирайтеры доказывают это: вписывают слова какие только можно, не раскрывая суть.

Поэтому я советую вам разбирать ключевые фразы, чтобы понять, чего хочет пользователь.

Так, на семинаре мы прикинули, что по фразе «диван кровать» вероятно пользователь хочет не просто диван, а в первую очередь диван с механизмом трансформации, возможно с ящиками для белья и определённым размером спального места.

 


 

Так же на семинаре мы разобрали и сравнили некоторые тексты.

А вам я предлагаю подумать над таким вопросом: Чем бы скорее всего отличался текст данного поста об алгоритмах текстового ранжирования, если его написал фрилансер копирайтер? Пишите ваши мысли в комментариях.

Мы уже поменяли наше техническое задание по написанию текстов. А как вы планируете их менять?

 

Фахрутдинов Рустем

Рустем Фахрутдинов
Легендарный Беркут-магистр