Парсер выдачи сайтов Яндекс / Yandex



Задача была выдрать урлы сайтов которые идут в поисковой выдаче Яндекса. Думал думал. Решил проблему разрешать на локальной машине. Для этого воспользовался дополнением к FireFox – Greasemonkey. Он умеет запускать JavaScript код про правилам, т.е. можно исполнить хоть на какой странице. Например: yandex.ru.

Вот собственно код для скрипта к Greasemonkey:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
// ==UserScript==
// @name           Yandex
// @namespace      yandex.ru/
// @include        http://yandex.ru/yandsearch*
// ==/UserScript==

// Получаем все элементы с нужным нам классом (это ссылки в заголовках)
var elems = document.getElementsByClassName("b-serp-item__title-link");
var str = '';
var html = '';

for (var i = 0; i < elems.length; i++)
{

    str = elems[i].href;
    str = str.split("http://").join('');
    str = str.split('/');
    str = str[0];
    if (str !== 'yabs.yandex.ru') html += str + "\r\n";
}

// Создаем этемент текстовое поле
var layer = document.createElement('textarea');

// Красим его
layer.setAttribute("style", "font-size: 11px;position:absolute; top: 100px; right: 0;border:2px solid #000000; background: gray;color: #fff;width:200px; height:200px;overflow: auto;");

//Добавляем в него текст, который нагенерировали выше по коду
sometext = document.createTextNode(html);
layer.appendChild(sometext);

// Добавляем элемент тектового поля в документ
document.body.appendChild(layer);

Похожие статьи:

  1. Оптимизация сайта под Яндекс (Yandex)
Добавить комментарий

14 Комментарии.

  1. Не работает((

  2. Хм. да нет, я пользуюсь)

  3. Установил дополнение.
    Потом нажимаю создать новый скрипт.
    Что дальше?
    Название
    Пространство имен
    Описание
    Включения
    Исключения

    Что там писать?
    И потом куда этот текст вставлять, что у тебя выше?
    Помоги.

  4. Прошу прощения, а не могли бы подробней описать установки и использование данного скрипта.
    С Greasemonkey впервые сталкиваюсь и мне совершенно непонятно, что там к чему. :oops:

  5. Ну думаю для начала вам сюда – [ссылка]

  6. :idea: Важно! Исправлена ошибка в скрипте, вызванная сменой верстки выдачи Яндекса.

  7. Спасибо, буду пробовать.

  8. Пожалуйста! Может еще идеи есть нужных вещей вроде этого парсера?

  9. идея такая: парсим все ссылки блогов на wordpress например, создаем базу.
    и постим комменты по базе напарсенных сайтов.

    • :cool: Думаю вам надо просто найти готовые скрипты для этого. Уверен они есть, хотя меня в блогах моих это не заботит, т.к. есть Akisme. Он удачно справляется с 99% спама, а остальной 1% я уверенно отвергаю на этапе премодерации пользователя.

  10. Чё-то я не вкурил как он работает, вроде всё поставил, лицо обезьяны в файрфоксе отображается, скрипт установил, а как сами урлы спарсить-то?

  11. Для этой задачи есть отличный парсер Butterfly 3.0 :!:

Ответить


[ Ctrl + Enter ]