标签: r xml curl web-crawler rvest
我想从同一个网址抓取每个网页
例如: “http://www.htc.com/tw/XXXXXXX” 汉夫有什么办法吗?
感谢。
答案 0 :(得分:0)
由于大多数Web服务器都禁用了目录列表,因此无效。 无法抓取每个页面。但是,您可以抓取主页上链接的每个子页面。例如,您可以创建在该站点上找到的所有链接的数组,并过滤具有相同域名的链接。但这不会找到任何未链接的目录。