如何从同一个头部网址抓取每个网页?

时间:2017-02-17 07:53:24

标签: r xml curl web-crawler rvest

我想从同一个网址抓取每个网页

例如: “http://www.htc.com/tw/XXXXXXX” 汉夫有什么办法吗?

感谢。

1 个答案:

答案 0 :(得分:0)

由于大多数Web服务器都禁用了目录列表,因此无效。 无法抓取每个页面。但是,您可以抓取主页上链接的每个子页面。例如,您可以创建在该站点上找到的所有链接的数组,并过滤​​具有相同域名的链接。但这不会找到任何未链接的目录。