用“npm crawler”爬行

时间:2013-02-05 23:14:57

标签: node.js web-crawler

例如,如何从npmjs.org抓取Node.js模块的描述 但是这段代码不起作用。以及如何使用jQuery,而不是jsdom模块。

var Crawler = require("crawler").Crawler;
var crawler = new Crawler({
   "maxConnections":10,
});

crawler.queue([{
"uri":"https://npmjs.org/package/crawler",

"callback":function(error,result) {
    console.log("description:", window.$("p.description").text());
    }
}]);

1 个答案:

答案 0 :(得分:1)

您的代码存在太早。在最后一行添加一个setTimeout,以便为代码提供足够的时间来完成。

然后从你的回调函数调用process.exit()。

爬虫回调需要3个参数,第3个参数是jQuery,所以你可能会使用类似的东西:

"callback":function(error,result,$) {
  console.log("description:",$("p.description").text());
}