Это конкурсная статья про возможности программного комплекса Xrumer 7 и Hrefer 3.3 !
Использование программного комплекса Xrumer7+Hrefer3.3+Dle spider на примере движка DLE (Datalife Engine).
Я взял для работы DLE т.к. при создании аккаунта – создается профиль, где можно оставить ссылку в bbcodе а так же можно оставить комментарий в любую из новостей. А самое главное Xrumer 7 может распознавать капчу DLЕ своими силами — без дополнительных материальных затрат на антикапчу.
В программном комплексе Xrumer7 с версии beta 6 появилась отдельная программа DLE_Spider.exe (сборщик ссылок для DLE), которая проверяет и приводит базу сайтов на DLE к нужному формату для регистрации, и может собирать страницы с сайтов на DLE для дальнейшего их комментирования.
В Xrumer 7 есть файл Links/LinksList id200.txt — это база сайтов на DLE (Datalife Engine), но мне не хочется работать там где уже «прошлись» многие другие, а значит мне нужно собрать свою новую базу и увеличить уже имеющуюся базу.
Сбор признаков для парсинга
Для начала нужно собрать признаки для парсинга, их легко можно подобрать из самих движков DLE.
Вот признаки которые можно найти:
inurl:"index.php?do=register" "повторите пароль"
inurl:"index.php?do=register" "Код безопасности"
inurl:"index.php?do=register" "регистрация"
inurl:"index.php?do=register" "пароль"
inurl:"index.php?do=register" "Введите код"
inurl:"index.php?do=register" "Подтверждение кода безопасности"
inurl:"/index.php?do=register"
inurl:"index.php?do=stats"
inurl:"/index.php?do=search"
inurl:"/index.php?do=pm"
inurl:"/index.php?do=feedback"
inurl:"/index.php?do=lostpassword"
inurl:"/index.php?do=addnews"
inurl:"/index.php?subaction=newposts"
inurl:"/index.php?do=lastcomments"
inurl:"/index.php?do=rules"
inurl:engine/rss.php
inurl:"admin.php" intitle:"DataLife Engine"
intitle:"DataLife Engine Printable version"
intitle:"DataLife Engine Nulled by M.I.D-Team"
intitle:"DataLife Engine Версия для печати"
"DataLife Engine > Версия для печати"
"powered by dle"
Их мы и будем использовать для дальнейшего парсинга и получения новой базы.
Подготовим Hrefer для парсинга!
Создим текстовый файл в папке Words/wordsfordle.txt со словами (так как DLE это в большей части русскоязычные сайты, то добавить можно русских слов, а также ВЧ слова – music, video и другие которые обычно можно встретить на многих варезниках), эти слова помогут нам увеличить количество запросов к поисковой системе и тем самым собрать как можно больше ссылок.
Создаем файл шаблона дополнительных слов (из признаков которые мы собрали выше) и кладем в папку Templates/dle_addwords.txt, а так же файл Templates/dle.txt – он нужен будет если мы захотим фильтровать ссылки — те которые нам будут нужны.
Базу LinksList id200.txt (из Хрумера) бросим в папку с хрефером Links/LinksList id200.txt и будем сохранять все ссылки при парсинге именно туда, в настройках нужно включить две опции фильтрации дублей (что бы избежать повторных ссылок при парсинге)
Фильтр при парсинге не будем включать, так как у нас есть новая программа для проверки сайтов на DLE — Dle spider, разберемся с ней позже после сбора базы.
Выбираем поисковые машины которые мы будем парсить (при парсинге нужно учесть что поисковые запросы для разных поисковых машин разные и в идеале запрос должен быть без операторов — inurl, intitle и т.д.), обновляем прокси (если у вас есть доступ к платным прокси — это будет намного лучше), проверяем настройки и запускаем Hrefer!
Вот результат 3-х минутного парсинга
мы получили 520 новых, без дублей, ссылок!
Работаем c DLE Spider
Отдельно копирую эти новые 520 ссылок(из файла LinksList id200.txt) в файлик newdle.txt и обрабатываю программой DLE_Spider.exe
В результате обработки DLE Spider сформирует файлы : newdle_reg.txt — файл ссылок на регистрацию и файл newdle_comments.txt — ссылки для комментариев новостей(их желательно перемешать и сохранить)
Работаем в Xrumerе!
Полученные файлы кладу в хрумер и переименовую — newdle_reg.txt в LinksList id201.txt, а newdle_comments.txt в LinksList id202.txt
С этими файлами мы и будем работать в Хрумере дальше.
Создаем проект и прописываем: подпись — можно поставить ссылку или две в формате bbcode ( [url=ваша ссылка]анкор[/url]
), поле сайт — можно поставить обычную ссылку. В настройках ставим галочку на режим «Только регистрация» и проходим базу LinksList id201.txt, на выходе мы получаем профиля с ссылками
Список ссылок для примера — были получены «Анализатором базы ссылок» — проверяет нашу базу на наличие ссылки или слова, которое мы использовали при рассылке (находится в Инструментах)
_ttp://homeload.ru/user/MaxdleWhoma/
_ttp://topgroup.tk/user/Maxdlehisee/
_ttp://www.downloads99.com/user/MaxdleAbirm/
_ttp://www.doha-olympic.com/user/MaxdleCakly/
В поле сообщения добавляю комментарий со ссылкой и сохраняю проект, выбираю новую базу LinksList id202.txt (отдельно собранная база для комментирования см. выше) а в Настройках ставлю новый режим — «Рассылка от ранее зарегистрированного»
Список ссылок для примера, с комментариями в режиме «Рассылка от ранее зарегистрированного» — были получены тем же «Анализатором базы ссылок»(см. выше)
_ttp://duosoft.org/vectr/35355-vintage-lace-frames.html
_ttp://topgroup.tk/143-battlefield-2-project-reality-v0957-pc2011en.html
_ttp://meonly.net/newposts/remixes/20-yc-ft-wiz-khalifa-racks-remix-cdqmp3.html
_ttp://www.downnow.org/newposts/mac-applications/6171-guitar-pro-608-soundbank-winmacosxlinux.html
Видеоматериал на ютубе
В результате мы получили новые ресурсы которых может еще нет у наших «знакомых» по Xrumerу, получили ссылки с профилей и комментариев новостей на движке DLE (Datalife Engine).
Posted by Zubashech on 25.12.2011 at 5:20 дп
Ну вот. Теперь можно спокойно отойти ко сну… ))
Posted by HishniK on 09.03.2012 at 2:32 пп
Спасибо! Реально хорошее видео, щас буду готовить базу ДЛЕ!
Posted by ff on 19.03.2012 at 10:58 дп
Огромное спасибо за видео, никак не мог врубиться что сделать с дле, в частности подпись url= в подписи решила многие вопросы.