经过一些教程后,我设法提供了jsdom并用几行代码表达并在jsdom环境中抓取任何url的登陆页面。
但是,我似乎无法找到关于通过页面和链接进行进一步抓取的任何文档。
答案 0 :(得分:0)
jsdom中没有递归设置。只需获取顶级页面中的所有链接,然后发布同一域内的新链接(递归)
答案 1 :(得分:-1)
尝试https://github.com/rc0x03/node-promise-parser
关注example.com上的所有链接:
pp('example.com')
.find('a')
.follow('@href')