Источники семантики: обзор инструментов и сервисов, анализ эффективности
Каждый, кто впервые сталкивается с задачей по сбору семантического ядра, задает себе вопросы:
Откуда брать семантику?
Где найти самые свежие, актуальные фразы?
Все ли дороги ведут в Вордстат?
Чем больше источников, тем лучше?
Когда я только начинал соприкасаться с семантикой в своей работе я думал следующим образом: нужно набрать как можно больше фраз из максимума источников, все потом грамотно сгруппировать, охватить всю тематику и еще маленький кусочек. Объять необъятное.
Конечно же, это наивный, поверхностный и неэффективный подход, который выливается в бесконечный парсинг и чистку мусора в Key Collector.
В семантике, как и в любом другом деле, больше не значит лучше. Лучше - это обычно как раз меньше, но правильнее. Less is more.
Скорость сбора напрямую зависит от количества источников. А от чего зависит качество собранного семантического ядра? Прежде чем ответить на этот вопрос, давайте разберемся какие бывают источники семантики и определим ключевые факторы, отвечающие за эффективность и полезность того или иного источника.
Типы источников семантики
Всего существует 4 типа ресурсов, которые можно использовать в качестве источников семантики. Ключевые факторы эффективности источника:
Объем фраз в источнике (влияет на скорость сбора)
Актуальность фраз в источнике (влияет на качество готового ядра)
% мусорных фраз в источнике (влияет на скорость сбора)
1. Статистические источники
Статистические источники - это большие базы поисковых систем, хранящие в себе миллионы ключевых фраз и статистическую информацию по этим фразам (кол-во показов). Запросы попадают в базу следующим образом:
Пользователь вводит запрос в поисковую систему
Поисковая система фиксирует запрос и записывает этот запрос в базу (если его там еще не было), либо увеличивает счетчик показов для данного запроса, в случае, если такой запрос в базе был обнаружен
В конце месяца происходит пересчет статистики для всех запросов в базе
Основной перечень статистических источников:
Яндекс.Вордстат (ссылка)
Google Adwords Keyword Planner (ссылка)
Статистика поисковых запросов Рамблер (ссылка)
Статистика запросов Mail.Ru (ссылка)
Статистические источники создавались для того, чтобы пользователи, создающие рекламные кампании в Яндекс.Директ или Google Adwords, могли подобрать ключевые слова для кампаний, посмотреть статистику по показам и выбрать нужные фразы. Поисковые системы очень противятся парсингу статистических источников с целью сбора семантики для сайта или интернет магазина, т.к. промышленный парсинг оказывает значительную нагрузку на эти системы.
Статистические источники никогда не смогут показать вам статистику по свежим запросам, которые попали в базу в текущем месяце, т.к. им требуется время, для пересчета данных. Кроме того, каждый статистический источник подключен к своей поисковой системе и количество фраз в нем, напрямую зависит от популярности данной поисковой системы среди пользователей интернета.
Краткая сводка по статистическим источникам
Количество запросов | Среднее |
Актуальность запросов | В целом актуальные запросы, с поправкой на задержку с обновлением |
% мусора | 0%, получаем только реальные, вводимые пользователями запросы |
2. “Подсказочники”
Поисковые подсказки - это инструмент, который на основании вводимых пользователем букв или фраз, пытается предугадать намерение пользователя и предложить список сопоставимых запросов, из которых пользователь сможет сделать выбор. Цель инструмента - сэкономить время пользователя, т.к. ему не нужно печатать запрос целиком.
Основные “подсказочники”:
Яндекс
Google
Mail.ru
YouTube
У “подсказочников” есть одно ключевое преимущество, которое делает этот источник незаменимым при сборе семантики - это наличие самых свежих и актуальных запросов. Это происходит потому, что пользователи постоянно вводят новые запросы в поиск и базы поисковых подсказок должны постоянно обновляться, чтобы показать пользователю только актуальные, имеющие смысл в данный момент, запросы.
Базы поисковых подсказок совсем небольшие, поэтому поддержание актуальности не является ресурсозатратной задачей. Новые запросы попадают в базу “подсказочника” сразу же, потом происходит актуализация и неактуальные запросы удаляются. К примеру, актуализация базы подсказок поисковой системы Яндекс происходит не реже чем раз в день.
Краткая сводка по “подсказочникам”
Количество запросов | Маленькое |
Актуальность запросов | Самые актуальные запросы |
% мусора | 0 - 75% в зависимости от конкретного “подсказочника” и его алгоритма формирования подсказок. К примеру “подсказочник” Mail.ru отдает несуществующие фразы. |
3. Базы
Каждая база ключевых фраз представляют из себя программу, состоящую из двух модулей: оболочка (интерфейс) и сам файл с фразами в определенном формате. Оболочка позволяет пользователю взаимодействовать с файлом, она транслирует вводимые пользователем запросы, позволяет указать операторы, выбрать фильтрацию и сортировку. Эта модель позволяет подменить файл фраз, в случае обновления базы без необходимости переустановки оболочки.
Самые известные базы ключевых фраз:
Базы ключевых фраз обычно довольно большие по объему, к примеру размер базы Букварикс на 05.04.2017 года - 37,9 ГБ. Взамен мы получаем одно важное преимущество - скорость. За 5 - 10 минут мы можем сделать поиск и выбрать нужные нам ключевые фразы по базе размером 2 млрд. 124 млн. ключевых слов (Букварикс, актуальность на 05.04.2017). Благодаря таким базам мы можем значительно ускорить сбор семантики для крупных порталов и проектов, т.к. в противном случае нам бы пришлось парсить Вордстат в течении недель или даже месяцев, чтобы собрать все возможные фразы.
При таких объемах фраз в базах возникает вопрос актуальности, ведь поддерживать такой гигантский массив фраз в актуальном состоянии - задача очень ресурсозатратная, которая под силам только крупным компаниям (даже Яндекс обновляет свой Яндекс.Вордстат не чаще чем раз в месяц). Поэтому ожидать, что базы - это серебряная пуля в сборе семантики по меньшей мере наивно. Все ключевые фразы из баз все равно придется проверять на актуальность. Частотность, которую показывают базы не всегда правильная и для 30%+ фраз она и вовсе отсутствует.
Краткая сводка по базам
Количество запросов | Огромное |
Актуальность запросов | Актуальность запросов может быть с задержкой в 3-6 месяцев |
% мусора | 15% - 95% в зависимости от конкретной базы и тематики |
4. Конкуренты
Семантику можно брать у конкурентов. Для этого нужно выявить самых интересных с точки зрения семантики конкурентов, проанализировать их сайты через Similarweb, по методике, которая описана в инструкции и выгрузить фразы через один из сервисов.
Перечень сервисов, которые показывают семантические ядра сайтов:
Spywords (ссылка)
Keys.so (ссылка)
Видимость сайта по базе Megaindex (среди сервисов у MI самая большая база фраз в рунете) (ссылка)
Семантику конкурентов можно использовать только в качестве дополнения к уже собранной из других источников семантике, т.к. сервисы в силу технических ограничений видят лишь часть семантики сайта, не имеют возможности часто актуализировать свою базу фраз и сами базы относительно небольшие.
Краткая сводка по сервисам
Количество запросов | Среднее / Большое (зависит от сайта конкурента) |
Актуальность запросов | Актуальность запросов может быть с задержкой в 1-2 месяца |
% мусора | 0% - 15% |
Стратегии выбора источников
Почему не стоит брать все источники при составлении СЯ? Выбор источников определяется задачей. Можно пойти “жадным” путем и попробовать собрать ключевые фразы из всех источников. Но это наивный подход, который приведет к потере времени. Нам придется чистить очень много мусора, проверять частотности, что в итоге приведет к немыслимым срокам на сбор СЯ.
Количество и качество источников очень сильно влияет на скорость сбора. Качество же собранного ядра определяется правильной комбинацией источников.
В зависимости от нашего опыта по сбору семантики, сайта, под который мы собираем семантическое ядро и ограничения по срокам на сбор мы комбинируем источники таким образом, чтобы добиться максимального результата за наименьший срок.
Вот три базовых стратегии, которые можно адаптировать под конкретную задачу и получать отличные результаты по скорости и времени будь то сайт услуг, семантика для директа или информационный сайт.
1. Стратегия “Стартовый пакет”
Быстро собрать ядро, но готов пожертвовать качеством.
Источники:
Яндекс.Вордстат
Поисковые подсказки Яндекс
2. Стратегия “Принцип 80/20”
Хочу качественное ядро, но не готов тратить дополнительное время на глубокую проработку.
По мотивам закона Парето.
Источники:
Яндекс.Вордстат
Статистика поисковых запросов Рамблер
Поисковые подсказки (Яндекс, Google, YouTube)
База “Букварикс”
3. Стратегия “Мастер Yoda”
Суперкачественное ядро за адекватное время.
Источники:
Все статистические источники
Подсказки (YouTube, Yandex, Google)
База “Букварикс”
Семантика конкурентов через Keys.so, Megaindex