Hrefer 3.3 и скрытые возможности.

Вторая конкурсная работа от Alexei82, для третьего конкурса статей на botmasterru.com

Пользователи Xrumerа часто встречаются с проблемой – где достать свежие и рабочие базы для своих проектов. Для того что бы найти такие базы приходится приложить не малые усилия – некоторые покупают готовые базы по завышенным ценам (но не всегда они отвечают заявленным требованиям), другие пробуют парсить поисковые системы.

Многие знают что свежие и рабочие базы можно найти если «пройтись по следам конкурентов». Я предлагаю собрать базу с уже готовых проспамленных форумов, там где топики и профили линкуют между собой.
Для сбора такой базы заказывают или пишут специальные скрипты, но мы попробуем все это сделать с помощью Hrefer 3.3 — программа, предназначенная для поиска новых ссылок на форумы, гостевые книги, блоги, Wiki и т.п.

Попробуем найти такие ресурс, где есть слинкованные профиля и топики, и соберем нужные нам ссылки.
Возьмем для примера поисковый запрос «tramadol forum topic» и посмотрим его в гугле

пройдемся по первым сайтам и посмотрим что нам подходит…

поискав мы наткнулись на форум footballsuperstars dot com /forum/viewtopic.php?f=101&t=7232&st=0&sk=t&sd=a&start=1120 – нам видно что мы зашли на страницу c просмотром активных тем и наблюдаем что этот форум уже «обрабатывают» Xrumerом, есть ссылки (линковка) на другие сообщения с форумов.
Как видно на странице есть другие ссылки кроме форумов и профилей а значит побочным результатом сбора ссылок может быть база блогов на движке ning.com или других движках, а также ссылки на бесплатные хостинги которые сейчас могут быть актуальны.

Для того что бы спарсить все ссылки, нам понадобится шаблон для парсинга этого форума. Шаблоны и настройки для парсинга хранятся в файле engines.ini в папке с Hreferом.
Открываем файл engines.ini и видим различные шаблоны поисковых систем. Для каждой поисковой системы используется свой специальный шаблон.

Давайте на примере последнего шаблона [Blogs.Yandex] разберем какие параметры используются для этого:

[Blogs.Yandex]
Hostname=http://blogs.yandex.ru
Query=search.xml?text=[QUERY]
LinksMask=class="title ">[...]href="[LINK] class=" SearchStatistics-link"
TotalPages=100
NextPage=<a class="b-pager__next" href="[LINK]"
NextPage2=<a class="b-pager__next" href="[LINK]"

Hostname -сюда нужно прописывать урл с которого мы будем парсить
Query -часть ссылки оставшейся после Hostname= с поисковым запросом (сам поисковый запрос заменяется на параметр [QUERY] и берется из наших words или additive words)
LinksMask –границы (признак) по которым находится нужная часть кода при парсинге а сохраняемый параметр выделяется как [LINK], также должен быть обязательный параметр […] – означает любое количество символов до следующего кода в границе)
TotalPages -количество страниц по которым может осуществляться переход по ссылкам
NextPage -границы по которым мы «говорим» Hreferу что нужно перейти на следующую страницу
NextPage2 -второй вариант границ NextPage

Вернемся к найденному ресурсу footballsuperstars dot com и составим для него шаблон:

[footballsuperstars] – название шаблона (название будет видно при выборе поисковых систем);

Hostname=http://footballsuperstars.com/forum – берем первую часть ссылки без слеша «/» после слова forum, т.к между Hostname и Query знак «/» ставится автоматически.;

Query=viewtopic.php?f=101&t=7232&st=0&sk=t&sd=a&start=[QUERY] оставшаяся часть ссылки с параметром [QUERY] (поисковым запросом) в данном случае поисковый запрос у нас будет номер страницы (меняющаяся через 10) 0, 10 , 20 … 1010, 1020, 1030 и т.д;

LinksMask=!-- m -->[...]<a class="postlink" href="[LINK]" я подобрал такие границы для сохранения ссылки которые чаще встречаются в коде(нужно смотреть исходный html код сайта), […] – обязательный параметр, т.к. пропускать не нужный код мне нет необходимости ставлю его в произвольном месте внутри кода;

TotalPages, NextPage, NextPage2 для них границ не буду определять, т.к перебор страниц будет происходит запросами [QUERY].

В результате у нас вышел шаблон, который мы запишем в конце файла engines.ini.

Теперь нам нужно создать файл с запросами для параметра [QUERY], в данном случае это страницы с меняющимися цифрами в конце
_ttp://footballsuperstars.com/forum/viewtopic.php?f=101&t=7232&st=0&sk=t&sd=a&start=1010
_ttp://footballsuperstars.com/forum/viewtopic.php?f=101&t=7232&st=0&sk=t&sd=a&start=1020
_ttp://footballsuperstars.com/forum/viewtopic.php?f=101&t=7232&st=0&sk=t&sd=a&start=1030
соответственно создаем текстовый файл forum.txt в папке WORDS с перечнем цифр (генерацию повторяющихся букв или цифр можно легко сделать с помощью Content Downloader или SEO Anchor Generator)

10
20
30

1010
1020
1030

Запустим Hrefer.
Наш шаблон для парсинга можно сразу проверить в работе новым специальным визуальным инструментом Hreferа — Tuning, он покажет нам собирает ли этот шаблон ссылки и внести изменения если это нужно. Довольно полезный инструмент который появился совсем недавно в Hreferе!

Настроим Hrefer для парсинга:
— выбираем наши запросы — файл forum.txt
— выбираем из списка поисковых систем строчку – footballsuperstars (все остальные пометки снять)
— отключаем использование прокси (на данный момент, если нас не банят, прокси можно не использовать)

В настройках (Options — Parsing options): отключить – конвертирование ссылок в индекс (Convert all links to index — off); включить фильтр дубликатов по урл при добавлении новых ссылок (Duplicates filtering — Enable filtering of duplicated links on loading links database); отключить — использование дополнительных слов (Do not use «Additive words»), отключаем (поставить галочку) — фильтрование ссылок по признакам (Disable filtering harvested links by Sieve-filter). Для анализа собираемых ссылок, фильтрование ссылок — можем не использовать, спарсенные ссылки покажут нам с какими ресурсами работают наши конкуренты (бесплатные хостинги, блоги и тд), какими ресурсами они линкуют свои сайты/доры и т.д.).
Что бы избежать бана желательно не использовать большое количество потоков.

Установим название файла для сохранения ссылок – 101.txt. Перезагрузим Hrefer.

Запустим парсинг и просмотрим результаты в файле 101.txt. Hrefer успешно собрал большое количество различных ссылок: есть обычные сайты – которые видимо продвигают владельцы Xrumerа, есть блоговый движок ning.com (был трастовым), есть немного бесплатных доменов, есть топики и профили форумов. Собранная база может послужить для анализа продвигаемых ресурсов.

Сейчас у меня другая задача – собрать ресурсы которые пробивает Хрумер, а значит нам нужно применить фильтр для сохранения нужных ресурсов. Для этого в Hreferе есть инструмент – фильтрование ссылок по признакам (убрать галочку — Disable filtering harvested links by Sieve-filter). В составе Hreferа уже есть фильтр форумов, блогов и гостевых, мы и применим один из них, hrefer3.3/Templates/all_forums.txt — это фильтр для форумов, его и применим.

Укажем Hreferу новый файл для сохранения – файл 102.txt. В настройках включим (убрать галочку) фильтр ссылок (Disable filtering harvested links by Sieve-filter), перезагрузим и запустим Hrefer.

В этот раз мы получим «почти» чистую базу форумов, дальше эту базу можно использовать привести к индексу и пройтись Хрумером в режиме регистрация, а потом еще и с последующем редактированием профиля + создание сообщения. Полученную базу можно обработать инструментом rgen.exe — этот инструмент позволяет преобразовать текстовые ссылки на топики в базу RLinksList (в каждом в аккаунте он есть в загрузках). Rgen поможет разослать ответы в топики, созданные другими пользователями, поможет разместить сообщения практически во всех топиках одного и того же форума, он существенно позволяет увеличить уже имеющуюся базу RLinksList.

Вот так можно использовать Hrefer для сбора ссылок без парсинга поисковых систем!

Попробуйте и Вы приоткрыть для себя новые возможности вашего Hreferа.

Видео урок

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: