Андрей Мамон | 05.03.2017

Источники семантики: обзор инструментов и сервисов, анализ эффективности

Каждый, кто впервые сталкивается с задачей по сбору семантического ядра, задает себе вопросы:

Откуда брать семантику?
Где найти самые свежие, актуальные фразы?
Все ли дороги ведут в Вордстат?
Чем больше источников, тем лучше?

Когда я только начинал соприкасаться с семантикой в своей работе я думал следующим образом: нужно набрать как можно больше фраз из максимума источников, все потом грамотно сгруппировать, охватить всю тематику и еще маленький кусочек. Объять необъятное.

Конечно же, это наивный, поверхностный и неэффективный подход, который выливается в бесконечный парсинг и чистку мусора в Key Collector.

В семантике, как и в любом другом деле, больше не значит лучше. Лучше - это обычно как раз меньше, но правильнее. Less is more.

Скорость сбора напрямую зависит от количества источников. А от чего зависит качество собранного семантического ядра? Прежде чем ответить на этот вопрос, давайте разберемся какие бывают источники семантики и определим ключевые факторы, отвечающие за эффективность и полезность того или иного источника.

Типы источников семантики

Всего существует 4 типа ресурсов, которые можно использовать в качестве источников семантики. Ключевые факторы эффективности источника:

Объем фраз в источнике (влияет на скорость сбора)
Актуальность фраз в источнике (влияет на качество готового ядра)
% мусорных фраз в источнике (влияет на скорость сбора)

1. Статистические источники

Статистические источники - это большие базы поисковых систем, хранящие в себе миллионы ключевых фраз и статистическую информацию по этим фразам (кол-во показов). Запросы попадают в базу следующим образом:

Пользователь вводит запрос в поисковую систему
Поисковая система фиксирует запрос и записывает этот запрос в базу (если его там еще не было), либо увеличивает счетчик показов для данного запроса, в случае, если такой запрос в базе был обнаружен
В конце месяца происходит пересчет статистики для всех запросов в базе

Основной перечень статистических источников:

Яндекс.Вордстат (ссылка)
Google Adwords Keyword Planner (ссылка)
Статистика поисковых запросов Рамблер (ссылка)
Статистика запросов Mail.Ru (ссылка)

Самый популярный статистический источник - это Яндекс.Вордстат.

Статистические источники создавались для того, чтобы пользователи, создающие рекламные кампании в Яндекс.Директ или Google Adwords, могли подобрать ключевые слова для кампаний, посмотреть статистику по показам и выбрать нужные фразы. Поисковые системы очень противятся парсингу статистических источников с целью сбора семантики для сайта или интернет магазина, т.к. промышленный парсинг оказывает значительную нагрузку на эти системы.

Статистические источники никогда не смогут показать вам статистику по свежим запросам, которые попали в базу в текущем месяце, т.к. им требуется время, для пересчета данных. Кроме того, каждый статистический источник подключен к своей поисковой системе и количество фраз в нем, напрямую зависит от популярности данной поисковой системы среди пользователей интернета.

Краткая сводка по статистическим источникам

Количество запросов	Среднее
Актуальность запросов	В целом актуальные запросы, с поправкой на задержку с обновлением
% мусора	0%, получаем только реальные, вводимые пользователями запросы

2. “Подсказочники”

Поисковые подсказки - это инструмент, который на основании вводимых пользователем букв или фраз, пытается предугадать намерение пользователя и предложить список сопоставимых запросов, из которых пользователь сможет сделать выбор. Цель инструмента - сэкономить время пользователя, т.к. ему не нужно печатать запрос целиком.

Основные “подсказочники”:

Яндекс
Google
Mail.ru
YouTube

У “подсказочников” есть одно ключевое преимущество, которое делает этот источник незаменимым при сборе семантики - это наличие самых свежих и актуальных запросов. Это происходит потому, что пользователи постоянно вводят новые запросы в поиск и базы поисковых подсказок должны постоянно обновляться, чтобы показать пользователю только актуальные, имеющие смысл в данный момент, запросы.

Mail.ru пытается понять что нужно пользователю.

Базы поисковых подсказок совсем небольшие, поэтому поддержание актуальности не является ресурсозатратной задачей. Новые запросы попадают в базу “подсказочника” сразу же, потом происходит актуализация и неактуальные запросы удаляются. К примеру, актуализация базы подсказок поисковой системы Яндекс происходит не реже чем раз в день.

Краткая сводка по “подсказочникам”

Количество запросов	Маленькое
Актуальность запросов	Самые актуальные запросы
% мусора	0 - 75% в зависимости от конкретного “подсказочника” и его алгоритма формирования подсказок. К примеру “подсказочник” Mail.ru отдает несуществующие фразы.

3. Базы

Каждая база ключевых фраз представляют из себя программу, состоящую из двух модулей: оболочка (интерфейс) и сам файл с фразами в определенном формате. Оболочка позволяет пользователю взаимодействовать с файлом, она транслирует вводимые пользователем запросы, позволяет указать операторы, выбрать фильтрацию и сортировку. Эта модель позволяет подменить файл фраз, в случае обновления базы без необходимости переустановки оболочки.

Самые известные базы ключевых фраз:

Пастухова (ссылка)
Букварикс (ссылка)
Moab (ссылка)

Базы ключевых фраз обычно довольно большие по объему, к примеру размер базы Букварикс на 05.04.2017 года - 37,9 ГБ. Взамен мы получаем одно важное преимущество - скорость. За 5 - 10 минут мы можем сделать поиск и выбрать нужные нам ключевые фразы по базе размером 2 млрд. 124 млн. ключевых слов (Букварикс, актуальность на 05.04.2017). Благодаря таким базам мы можем значительно ускорить сбор семантики для крупных порталов и проектов, т.к. в противном случае нам бы пришлось парсить Вордстат в течении недель или даже месяцев, чтобы собрать все возможные фразы.

Некоторые базы добавляют в свою оболочку ряд полезных для SEO-специалиста инструментов. Например Букварикс позволяет перемножить фразы, создав тем самым синтетическую семантику для сайта по недвижимости.

При таких объемах фраз в базах возникает вопрос актуальности, ведь поддерживать такой гигантский массив фраз в актуальном состоянии - задача очень ресурсозатратная, которая под силам только крупным компаниям (даже Яндекс обновляет свой Яндекс.Вордстат не чаще чем раз в месяц). Поэтому ожидать, что базы - это серебряная пуля в сборе семантики по меньшей мере наивно. Все ключевые фразы из баз все равно придется проверять на актуальность. Частотность, которую показывают базы не всегда правильная и для 30%+ фраз она и вовсе отсутствует.

Краткая сводка по базам

Количество запросов	Огромное
Актуальность запросов	Актуальность запросов может быть с задержкой в 3-6 месяцев
% мусора	15% - 95% в зависимости от конкретной базы и тематики

4. Конкуренты

Семантику можно брать у конкурентов. Для этого нужно выявить самых интересных с точки зрения семантики конкурентов, проанализировать их сайты через Similarweb, по методике, которая описана в инструкции и выгрузить фразы через один из сервисов.

Перечень сервисов, которые показывают семантические ядра сайтов:

Spywords (ссылка)
Keys.so (ссылка)
Видимость сайта по базе Megaindex (среди сервисов у MI самая большая база фраз в рунете) (ссылка)

Семантику конкурентов можно использовать только в качестве дополнения к уже собранной из других источников семантике, т.к. сервисы в силу технических ограничений видят лишь часть семантики сайта, не имеют возможности часто актуализировать свою базу фраз и сами базы относительно небольшие.

Краткая сводка по сервисам

Количество запросов	Среднее / Большое (зависит от сайта конкурента)
Актуальность запросов	Актуальность запросов может быть с задержкой в 1-2 месяца
% мусора	0% - 15%

Стратегии выбора источников

Почему не стоит брать все источники при составлении СЯ? Выбор источников определяется задачей. Можно пойти “жадным” путем и попробовать собрать ключевые фразы из всех источников. Но это наивный подход, который приведет к потере времени. Нам придется чистить очень много мусора, проверять частотности, что в итоге приведет к немыслимым срокам на сбор СЯ.

Количество и качество источников очень сильно влияет на скорость сбора. Качество же собранного ядра определяется правильной комбинацией источников.

В зависимости от нашего опыта по сбору семантики, сайта, под который мы собираем семантическое ядро и ограничения по срокам на сбор мы комбинируем источники таким образом, чтобы добиться максимального результата за наименьший срок.

Вот три базовых стратегии, которые можно адаптировать под конкретную задачу и получать отличные результаты по скорости и времени будь то сайт услуг, семантика для директа или информационный сайт.

1. Стратегия “Стартовый пакет”

Быстро собрать ядро, но готов пожертвовать качеством.

Источники:

Яндекс.Вордстат
Поисковые подсказки Яндекс

2. Стратегия “Принцип 80/20”

Хочу качественное ядро, но не готов тратить дополнительное время на глубокую проработку.

По мотивам закона Парето.

Источники:

Яндекс.Вордстат
Статистика поисковых запросов Рамблер
Поисковые подсказки (Яндекс, Google, YouTube)
База “Букварикс”

3. Стратегия “Мастер Yoda”

Суперкачественное ядро за адекватное время.

Источники:

Все статистические источники
Подсказки (YouTube, Yandex, Google)
База “Букварикс”
Семантика конкурентов через Keys.so, Megaindex