r - 如何从同一个头部网址抓取每个网页？ - Thinbug

如何从同一个头部网址抓取每个网页？

时间：2017-02-17 07:53:24

标签： r xml curl web-crawler rvest

我想从同一个网址抓取每个网页

例如： “http://www.htc.com/tw/XXXXXXX” 汉夫有什么办法吗？

感谢。

1 个答案:

答案 0 :(得分：0)

由于大多数Web服务器都禁用了目录列表，因此无效。无法抓取每个页面。但是，您可以抓取主页上链接的每个子页面。例如，您可以创建在该站点上找到的所有链接的数组，并过滤具有相同域名的链接。但这不会找到任何未链接的目录。