使用JSDOM刮取包含其子页面的网页

时间:2014-01-26 00:09:39

标签: node.js web-scraping web-crawler jsdom

经过一些教程后,我设法提供了jsdom并用几行代码表达并在jsdom环境中抓取任何url的登陆页面。

但是,我似乎无法找到关于通过页面和链接进行进一步抓取的任何文档。

2 个答案:

答案 0 :(得分:0)

jsdom中没有递归设置。只需获取顶级页面中的所有链接,然后发布同一域内的新链接(递归)

答案 1 :(得分:-1)

尝试https://github.com/rc0x03/node-promise-parser

关注example.com上的所有链接:

pp('example.com')
.find('a')
.follow('@href')