R下载网站,包括所有.css,.js,图片等

时间:2018-11-22 08:56:39

标签: r curl wget

说我要下载r-Bloggers.com页面。 如果我在Chrome中按Ctrl + S,将下载一个html文件以及一个包含58个文件(.css,.js,图片等)的文件夹

我想在R中做同样的事情。

我找到了答案并将其包装到system()system("wget --page-requisites https://www.r-bloggers.com/")

没有给我58 + 1个文件。

相同于:

download.file(url = "https://www.r-bloggers.com/", 
              destfile = "try", mode = "wget", extra = "--page-requisites")
download.file(url = "https://www.r-bloggers.com/", 
              destfile = "try.html", mode = "wget", extra = "--page-requisites")

1 个答案:

答案 0 :(得分:2)

这是因为默认情况下,Wget只会尝试从同一域下载项目。但是,此网站从不同的主机加载所有内容。

您需要使用--span-hosts标志来允许Wget访问来自不同主机的文件