Задача была выдрать урлы сайтов которые идут в поисковой выдаче Яндекса. Думал думал. Решил проблему разрешать на локальной машине. Для этого воспользовался дополнением к FireFox – Greasemonkey. Он умеет запускать JavaScript код про правилам, т.е. можно исполнить хоть на какой странице. Например: yandex.ru.
Вот собственно код для скрипта к Greasemonkey:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 | // ==UserScript== // @name Yandex // @namespace yandex.ru/ // @include http://yandex.ru/yandsearch* // ==/UserScript== // Получаем все элементы с нужным нам классом (это ссылки в заголовках) var elems = document.getElementsByClassName("b-serp-item__title-link"); var str = ''; var html = ''; for (var i = 0; i < elems.length; i++) { str = elems[i].href; str = str.split("http://").join(''); str = str.split('/'); str = str[0]; if (str !== 'yabs.yandex.ru') html += str + "\r\n"; } // Создаем этемент текстовое поле var layer = document.createElement('textarea'); // Красим его layer.setAttribute("style", "font-size: 11px;position:absolute; top: 100px; right: 0;border:2px solid #000000; background: gray;color: #fff;width:200px; height:200px;overflow: auto;"); //Добавляем в него текст, который нагенерировали выше по коду sometext = document.createTextNode(html); layer.appendChild(sometext); // Добавляем элемент тектового поля в документ document.body.appendChild(layer); |
Похожие статьи:


Не работает((
Хм. да нет, я пользуюсь)
Установил дополнение.
Потом нажимаю создать новый скрипт.
Что дальше?
Название
Пространство имен
Описание
Включения
Исключения
Что там писать?
И потом куда этот текст вставлять, что у тебя выше?
Помоги.
Прошу прощения, а не могли бы подробней описать установки и использование данного скрипта.
С Greasemonkey впервые сталкиваюсь и мне совершенно непонятно, что там к чему.
Ну думаю для начала вам сюда – [ссылка]
Спасибо, буду пробовать.
Пожалуйста! Может еще идеи есть нужных вещей вроде этого парсера?
конечно есть.
идея такая: парсим все ссылки блогов на wordpress например, создаем базу.
и постим комменты по базе напарсенных сайтов.
Чё-то я не вкурил как он работает, вроде всё поставил, лицо обезьяны в файрфоксе отображается, скрипт установил, а как сами урлы спарсить-то?
Яндекс сменил верстку. В скрипте я поправил, просто скопируйте его еще раз.
Просто они className сменили с «b-serp-item__title__link» на «b-serp-item__title-link»
Для этой задачи есть отличный парсер Butterfly 3.0