Андрей Мамон | 21.05.2017

Инструкция по настройке Key Collector для эффективного парсинга

Key Collector - незаменимый инструмент при сборе семантического ядра для сайта или контекстной рекламы. Но прежде чем запускать парсинг, программу необходимо грамотно настроить. Это позволит провести сбор фраз максимально быстро и с наименьшими затратами на антикапчу.

В этой статье мы пройдемся по основным настройкам программы, подготовим инструмент, а уже саму методику сбора, чистки и расширения семантики будем рассматривать в других статьях. Эта статья открывает цикл материалов, посвященных работе с Key Collector.

Весь цикл статей:

Настройка Key Collector для сбора (эта статья)
Методика сбора (парсинга) фраз в Key Collector.
Эффективная чистка в Key Collector.
Принципы группировки (кластеризации) фраз в Key Collector (в работе, ссылка появится позже)
Учет, фильтры и лайфхаки при работе в Key Collector (в работе, ссылка появится позже)

Установка программы

Если вы еще не знакомы с программой Key Collector, то ее необходимо скачать здесь. Там даны указания по тому, каким образом осуществляется покупка и установка программы. После того, как программа установлена и активирована можно переходить к следующему шагу.

Важно! Key Collector - программа, которая работает под Windows и на компьютеры Mac (Macbook, Macbook Air) с OSx не установится. Обойти это ограничение можно установкой виртуальной машины Windows, к примеру посредством утилиты Parallels Desktop.

Прокси и аккаунты Яндекс.Директ

Для работы с Key Collector мы настоятельно рекомендуем приобрести (взять в аренду на неделю или на месяц) как минимум 1 прокси-сервер. Это необходимо для того, чтобы обезопасить свой основной IP адрес от возможных блокировок, которые могут возникнуть в ходе работы Key Collector со статистическими источниками типа Яндекс.Вордстат и Яндекс.Директ.

Одного прокси будет вполне достаточно, чтобы потренироваться и понять принцип работы программы. Хорошие, индивидуальные прокси предоставляет сайт proxy-sale.com. Берем те, что для работы в Key Collector.

После покупки сервис высылает вам на почту учетные данные прокси и свежий аккаунт Яндекс.Директа, который также нам потребуется. В дальнейшем, при необходимости количество прокси можно будет увеличить, просто докупив (арендовав) столько сколько нужно.

Сейчас нам нужно просто понять принцип настройки Key Collector, а дальнейшую докрутку можно будет сделать потом.

Переходим в настройки программы - нажимаем на иконку "шестеренки" в панели управления.

Учетки для Yandex.Direct

Переходим в раздел настроек “Yandex.Direct” (Парсинг -> Yandex.Direct).

Вводим необходимые данные: логин и пароль от аккаунта Яндекс.Директ, IP прокси, порт, логин и пароль. Эти данные должны быть в письме, которое вы получили от proxy-sale. Вы можете добавить прокси вручную построчно или добавить из буфера обмена списком. Обратите внимание на формат, который требует Key Collector при вводе данных списком. Будьте внимательны и не перепутайте логин и пароль от учетки Яндекс.Директ с логином и паролем прокси сервера.

Фото 2: На первом шаге мы только вносим данные учетки и прокси, настройки будем делать потом. Это уменьшит количество ошибок и возможных проблем.

Сейчас, мы внесли данные и, тем самым, привязали учетку Яндекс.Директ к прокси серверу. Теперь все запросы в Yandex.Wordstat, Yandex.Direct или поисковую выдачу будут идти с одного и того же IP адреса (IP адрес прокси сервера) и с одной и той же учетки.

Такая привязка значительно повышает стабильность парсинга, уменьшает количество показов капчи (проверки на робота), что в итоге приводит к более быстрому сбору данных и уменьшению общего времени, затрачиваемого на сбор.

После того, как данные внесены, нам необходимо установить количество потоков в блоке 2 равным количеству прокси, которые мы приобрели. В нашем случае устанавливаем это значение равным 1 и переходим к следующему этапу.

Вкладка "Сеть"

Сюда мы должны добавить наш(и) прокси и установить ряд дополнительных настроек.

Фото 3: Основные зоны интереса во вкладке "Сеть".

Первым делом добавляем прокси в таблицу №1, отмеченную на скриншоте . Можно внести построчно, вручную или нажать кнопку "Добавить из буфера" и внести списком. Указываем IP сервера, порт, логин и пароль прокси сервера (не учетки Яндекс.Директа!). Берем эти данные из письма, которое прислал нам сервис, в котором мы приобрели прокси.

Обратите внимание на формат, который требует Key Collector, при внесении прокси списком! Если вы часто меняете прокси и работаете с большим объемом данных, то мы рекомендуем сделать формулу в Google Spreadsheets, которая бы приводила данные в нужный для Key Collector формат.

Основные настройки (2)

Использовать прокси серверы. Включаем данную опцию поставив галочку, HTTP остается без изменений. Для простоты, мы будем использовать HTTP прокси. SOCKS протокол требует большей сноровки и опыта и в некоторых случаях работает с ошибками, что может привести к невозможности продолжения работы.
Деактивация прокси, не прошедших проверку. Включаем, это мера предосторожности в случае, если возникли какие-то проблемы с прокси. После 360 секунд системой будет проведена повторная попытка подключения.

Проверка прокси (3)

Выставляем количество количество потоков равным количеству прокси. Т.е. если у нас 1 прокси, то ставим 1.

После этого мы отмечаем наши прокси галочкой (активируем их), чтобы каждая строка в блоке 1 была выделена зеленым цветом и запускаем проверки (одну за другой, по очереди):

Проверить в ПС Yandex
Проверить в Yandex.Wordstat

Проверки нужны для того, чтобы понять все ли в порядке с настройками, учеткой Яндекс.Директ и прокси сервером(ами). Если Key Collector заблокировал прокси (пометил строку красным цветом) в блоке 1 после проверки через ПС Яндекс, то проблема в настройке самого прокси сервера. Возможно, неверно введен логин, пароль или порт прокси сервера. Если же прокси не прошел проверку через Yandex.Wordstat, то проблема уже в настройках учетки Яндекс.Директ.

Последовательная проверка позволяет быстро локализовать ошибку и оперативно исправить причину.

Антикапча

Для автономной работы программы нам необходимо будет зарегистрироваться в сервисах, которые предоставляют услуги “Антикапчи”. Бюджет на данные сервисы нужен небольшой, однако это позволит использовать КК в автономной режиме. Ниже представлен перечень поддерживаемых Кей Коллектором сервисов:

Фото 4: Перечень сервисов, которые поддерживаются программой и предоставляют услуги по разгадыванию капчи.

Выбираем понравившийся сервис и регистрируемся в нем. Вносим 100-500р на баланс, получаем API ключ, который нужно будет внести в настройки ниже.

Фото 5: Настройки антикапчи (автоматическое распознавание captcha).

В ходе парсинга, статистические источники показывают пользователю капчу (проверка на робота), чтобы убедиться, что их использует человек и чтобы ограничить автоматический парсинг.

Во вкладке Настройки -> Антикапча -> Автораспознавание необходимо выбрать сервис, который вы решили использовать и ввести предоставленный вам ключ. После ввода ключа следует перезагрузить программу, чтобы Key Collector активировал ключ.

Также, вы можете ввести ограничение капч на один сеанс, то есть если в ходе сбора данных количество капч будет превышать указанный параметр - антикапча перестает работать. После перезапуска Кей Коллектора счетчик сбрасывается. Мы рекомендуем указать значение параметра равным 5000.

Настройки парсинга

Первым в списке настроек программы находится большой раздел "Парсинг", который отвечает за настройку сбора данных из разных источников.

Общие настройки

Настраиваем раздел “Общие” следующим образом:

Основные комментарии к настройке:

Добавлять в таблицу фразы, содержащие не более N слов. Как показывает практика, оптимальным количеством слов является 10. Именно с этим числом мы можем получить как высокочастотные, так и среднечастотные и низкочастотные запросы. Хвост запроса мы терять не хотим, однако и сбор пустых по частотности запросов нас тоже не интересует. 10 слов в запросе вполне отвечает данным требованиям.
Количество повторных попыток загрузки страниц. В случае сбоя именно это количество повторных попыток сделает программа. Стандартное значение 30. Не меняем его, т.к. этого вполне достаточно для корректной работы программы.
Таймаут ожидания ответа от сервиса. Время ожидания загрузки страниц из сервисов. Стандартная настройка в 30000 мс подойдет для проектов любого размера.
Режим сбора. В данном пункте должно быть отмечено “Строки с неполученными данными” - для строк с отсутствующей информацией будут собираться данные в программе, это сократит время сбора, так как не будет повторных проверок уже заполненных данных.
Фильтрация символов. В примере указан довольно большой перечень символов, который будет удаляться при парсинге. Нас не интересует экспрессивность выражения потребностей пользователя в поиске, а интересует сам смысл его запроса. В то же время, такие символы как “-” и “.” могут употребляться разными пользователями по-разному, например со знанием правил написания того или иного запроса и без. Чтобы привести все к единому виду, заменяем данные символы на пробел. Замена буквы ё на е так же является корректировкой различия между запросами пользователя. Нет разницы, поступил запрос в формате ёжик или ежик, так как они несут один семантический смысл. Поэтому для удобства приводим все фразы к единому виду по данному параметру.
Приводить слова в нижний регистр. Также является удобной настройкой для приведения всех фраз к единому формату.

Наша конечная цель - получить список ключевых фраз в едином, понятном формате. Это упростит дальнейшую работу и облегчит процесс чистки и поиска дублей.

Yandex.Wordstat

Для сбора с Вордстата программа использует аккаунты, прописанные в настройках Яндекс.Директа (Настройки -> Парсинг -> Yandex.Direct), которые мы заполнили ранее.

Комментарии к настройке:

“Глубина парсинга” и “Парсить страниц”. Глубина парсинга работает только для сбора ключевых фраз. Для глубины парсинга рекомендуемое значение 0. Если мы ставим значение отличное от 0, то Key Collector будет делать парсинг вложенных фраз (фраз, которые "приехали" в результате прошлой попытки сбора). Потенциально, такой подход может вылиться в непредсказуемое время на парсинг ключей, т.к. мы никогда не знаем какое количество фраз мы получим при сборе той или иной фразы. Стратегию парсинга мы будем более подробно рассматривать в других статьях. Пока, для оптимального результата ставим 0 для глубины парсинга и 40 для количества страниц.
Добавлять в таблицу фразы с частотами от X до Y. Мы можем задать минимальную частоту фразы для сбора сразу на этапе парсинга. Однако диапазон лучше оставить максимальным, чтобы не упустить интересные формулировки и запросы. В последующем мы сможем избавиться от низкочастотных запросов в пару кликов.
Не снимать частоты для фраз с базовой частотой равной или ниже чем N. Данная настройка позволяет нам экономить время сбора данных при настройке на 0, так как базовая частота 0 нас в общем то не интересует, это пустые фразы, по которым нет спроса.
Автоматически записывать 0 в колонки частот “ “ и “!”, если базовая частота 0. Опять же экономия времени на проверку частотности, так как данные автоматически будут заполнены, мы не будем собирать для них указанные частоты.
Маска запросов пользовательского формата. Выставляем значение “[!QUERY]”, таким образом мы автоматически проставим нужные операторы для запросов и получим максимально точные цифры.
Задержки между запросами от X до Y. Как показывает практика, значение от 25000 до 30000 вполне уместно и является близким к естественному. При возникновении блокировок мы всегда сможем изменить данный параметр в большую сторону.
Деактивация потоков. Количество потоков ставим равному количеству прокси серверов, которые мы настроили на прошлом этапе. Деактивацию потоков выставляем так, как указано на скриншоте. Система будет уменьшать кол-во потоков если по какой то причине прокси сервер выходит из строя, что нам и нужно.
При использовании группировки по месяцам. В данном случае оптимально будет установить “последний год” для учета актуальных данных.
Настройки режима “Собрать все виды частот”. Здесь вы можете настроить какие частоты надо собрать при использовании данного инструмента. Можно ничего не менять, т.к. в дальнейшем, при сборе мы всегда будем собирать частотности последовательно.

Фото 8: Можно задать какие именно частоты будут собираться при выборе опции "Собрать все виды частот".

Yandex.Direct

Задержки между запросами. Задержку между запросами лучше установить от 10000 до 15000 мс, чтобы не получить блокировку и не нагружать систему. Директ очень чувствителен к парсингу и выдает много капч при агрессивном сборе.
Количество потоков. Ставим кол-во потоков равным количеству прокси. Настройки деактивации ставим как указано на скриншоте.

Google Adwords

Настройки источников Google Adwords как правило остаются стандартными, так как имеют ограничения, о которых нас предупреждает Кей Коллектор.

В целом, менять их нет необходимости. Использование точной частоты из Google Adwords когда-то использовалось для инструмента “Анализ неявных дублей”, так как точная частотность из Adwords учитывает порядок слов. На данный момент эту задачу решает сбор точной частотности по маске QUERY через Яндекс (так называемый оператор скобки [], учитывающий последовательность слов в фразе).

Rambler Adstat

Настройки для Rambler Adstat также оставить в стандартном режиме, так как данная система не используется в сборе данных. Подсказки из Rambler можно получить без регистрации и настройки аккаунтов. В целом, Rambler Adstat - устаревший инструмент и не содержит нужного объема семантики для того, чтобы было уместным тратить время на сбор данных из него. Об актуальных на сегодняшний день источниках можно прочитать в этой статье.

Поисковая выдача

Во вкладке “Поисковая выдача” меняем количество потоков в зависимости от количества прокси, отключаем использование основного IP адреса и переключаем режим деактивации потоков.

Блок настроек Yandex.XML игнорируем и не меняем там ничего. В нашей работе мы не будем пользоваться XML сервисом Яндекса, поэтому активировать его нет необходимости.

Фото 12: Настройки работы с поисковой выдачей Yandex.

Устанавливаем кол-во потоков и настройки деактивации одинаково для всех источников, с которыми мы собираемся работать: Yandex, Google, YouTube, Mail.ru.

Фото 13: Настройки работы с поисковой выдачей Google, YouTube, Mail.ru.

Подсказки

В разделе “Подсказки" проводим аналогичные настройки: выставляем количество потоков в зависимости от количества прокси, отключаем использование основного IP адреса и меняем режим деактивации потоков.

Фото 14: Настройки работы с поисковыми подсказками.

Mail.ru

Mail.ru не используется напрямую в ходе парсинга как источник, однако проводим настройку аналогичную подсказкам и выдаче: количество потоков, их деактивация и ограничение использования основного IP адреса.

Прочее

Раздел “Прочее” включает в себя две настройки, которые можно оставить в стандартном положении. Мы будем использовать антикапчу, поэтому нам выгодно оставить все как есть и имитировать разгадывание капчи (разумеется через сервис антикапчи) с того же самого IP адреса, которому она была показана поисковой системой. Это благоприятно влияет на стабильность парсинга и уменьшает количество капч, которые показывают сервисы.

Фото 16: Прочие настройки Key Collector.

Итоги

Итак, мы прошлись по основным настройкам Key Collector, подготовили инструмент для парсинга в автономном режиме. Первоначальная настройка инструмента действительно может занять немало времени, но сэкономит вам много времени в дальнейшем, т.к. настроенная подобным образом программа работает на автопилоте и не требует внимания и контроля. Ее можно установить на виртуальную машину и оставить на ночь, не переживая о том, что парсинг остановится по той или иной причине.

В следующих статьях мы рассмотрим стратегию парсинга ключей, которая дает полную семантику. Эта стратегия одинаково хорошо подходит как для сбора семантического ядра для сайта, так и для семантики под контекстную рекламу, например для Яндекс.Директ.