使用NodeJS查找域上的所有页面

时间:2014-07-08 13:27:49

标签: node.js sitemap robots.txt

我正在尝试使用Node查找域中的所有页面。 我在Stackoverflow上搜索,但我找到的只是Ruby的这个帖子:Find all the web pages in a domain and its subdomains - 我有同样的问题,但对于Node。 我也用谷歌搜索了这个问题,但我找到的只是刮刀,却没有找到自行抓取的链接。我还在搜索“站点地图生成器”,“网页机器人”,“自动刮板”,“使用节点获取域上的所有页面”之类的内容,但它没有带来任何结果。

我有一个需要处理的链接数组的刮刀,例如我有一个页面www.example.com/products/,我想找到所有现有的子页面,例如www.example.com/products/product1.html,www.example.com/products/product2.html等。

你能给我一个提示,我怎样才能在Node中实现它?

1 个答案:

答案 0 :(得分:4)

看一下Crawler(https://www.npmjs.org/package/crawler)。您可以使用它来抓取网站并保存链接。

  

Crawler是一个用Nodejs编写的网络蜘蛛。它给你全部   服务器上jQuery的强大功能,可以解析大量页面   是异步下载的。刮痧应该简单而有趣!