有人热衷于简要解释如何使用RCurl包(或任何其他RPackage)从以下ftp服务器下载文件...吗?
http://hermes.acri.fr/index.php?class=ftp_access
我是这个领域的新手,一定需要动力...
非常感谢...
答案 0 :(得分:1)
好吧,TBH,您尚未进行任何研究,希望人们给予特殊待遇,这很好,但不会让您走得太远。关于RCurl
的SO上有很多问题,大量的网站专门讨论如何在FTP下载的上下文中使用它。
但是,以下内容可能会帮助做过一些研究并且确实陷入困境的人,此外还将说明如何使用更现代的curl
和httr
软件包。
除了一些RCurl辅导之外,您还希望人们注册该站点(因为可能已经假设该站点的FTP服务器中存在某些特质,导致RCurl问题……我的意思是,我们没有上下文,因此有效的假设。)
将它们放入~/.Renviron
中并重新启动R会话:
ACRI_FTP_USERNAME=your-username
ACRI_FTP_PASSWORD=your-password
进行一些基础研究(在R-Project网站的手册中),如果您以前没有做过的话,则将环境变量导入R。
如果您至少不这样做,那么您会将裸露的凭据放入脚本中,这对于安全性而言是可怕的。还有其他一些方式可以更正式地管理“秘密”,但是我怀疑这些FTP凭据并不是信息的“超级秘密”。这样做还可以使任何脚本更具通用性(即,如果其他脚本遵循相同的模式并使用自己的信誉,则可以使用它们。)
我们将使用curl
和httr
:
library(curl)
library(httr)
您可能不想使用浏览器查看目录列表,并且浏览器可能很快就会停止支持FTP(Mozilla放弃了对读取RSS提要的支持,Chrome和Firefox都无法读取Gopher网站,因此您一无所知)。由于某些原因,浏览器使用FTP的速度也会非常慢。
我们将提供一个使目录列表更容易的功能:
get_dir_listing <- function(path = "/") {
curl_fetch_memory(
paste0("ftp://ftp.hermes.acri.fr", path),
new_handle(
username = Sys.getenv("ACRI_FTP_USERNAME"),
password = Sys.getenv("ACRI_FTP_PASSWORD"),
dirlistonly=TRUE
)
) -> res
strsplit(readBin(res$content, "character"), "\n")[[1]]
}
现在我们可以做(我们将倒下一棵树,将其砍成斜线):
get_dir_listing()
## [1] "GLOB" "animation" "OSS2015" "EURO"
get_dir_listing("/GLOB/")
## [1] "meris" "viirsn" "merged" "olcia" "modis" "seawifs"
get_dir_listing("/GLOB/meris/")
## [1] "month" "8-day" "day"
get_dir_listing("/GLOB/meris/month/")
## [1] "2011" "2002" "2006" "2012" "2005" "2009" "2004" "2008" "2007" "2010" "2003"
get_dir_listing("/GLOB/meris/month/2011/")
## [1] "09" "05" "01" "12" "06" "02" "11" "03" "10" "07" "08" "04"
get_dir_listing("/GLOB/meris/month/2011/09/")
## [[1]] "01"
头奖!
get_dir_listing("/GLOB/meris/month/2011/09/01/")
## [1] "L3b_20110901-20110930__GLOB_4_AV-MER_KD490-LEE_MO_00.nc"
## [2] "L3m_20110901-20110930__GLOB_25_AV-MER_ZHL_MO_00.nc"
## [3] "L3b_20110901-20110930__GLOB_4_AV-MER_ZSD_MO_00.nc"
## [4] "L3m_20110901-20110930__GLOB_100_AV-MER_ZSD_MO_00.nc"
## [5] "L3b_20110901-20110930__GLOB_4_AV-MER_A865_MO_00.nc"
## [6] "L3m_20110901-20110930__GLOB_100_AV-MER_A865_MO_00.nc"
## [7] "L3m_20110901-20110930__GLOB_25_AV-MER_CHL1_MO_00.png"
## [8] "L3m_20110901-20110930__GLOB_25_AV-MER_CF_MO_00.png"
## [9] "L3m_20110901-20110930__GLOB_25_AV-MER_NRRS443_MO_00.png"
## [10] "L3m_20110901-20110930__GLOB_4_AV-MER_CHL-OC5_MO_00.nc"
## [11] "L3m_20110901-20110930__GLOB_100_AV-MER_KDPAR_MO_00.nc"
## [12] "L3b_20110901-20110930__GLOB_4_AV-MER_NRRS670_MO_00.nc"
## [13] "L3m_20110901-20110930__GLOB_25_AV-MER_NRRS490_MO_00.png"
## [14] "L3b_20110901-20110930__GLOB_4_AV-MER_NRRS412_MO_00.nc"
## [15] "L3m_20110901-20110930__GLOB_4_AV-MER_A865_MO_00.nc"
## [16] "L3m_20110901-20110930__GLOB_4_AV-MER_NRRS490_MO_00.nc"
## [17] "L3m_20110901-20110930__GLOB_25_AV-MER_KD490_MO_00.png"
## [18] "L3m_20110901-20110930__GLOB_4_GSM-MER_CHL1_MO_00.nc"
## [19] "L3b_20110901-20110930__GLOB_4_AV-MER_T550_MO_00.nc"
## [20] "L3m_20110901-20110930__GLOB_25_AV-MER_CHL-OC5_MO_00.png"
## [21] "L3m_20110901-20110930__GLOB_25_AV-MER_ZSD-DORON_MO_00.nc"
## .. there are alot of them
现在您可能要下载其中之一。我知道.nc
文件通常很大,即使我从不使用b / c文件,我已经阅读并回答了许多关于它们的SO问题。
我们将使用httr
进行下载,因为它会为我们处理很多事情:
httr::GET(
url = "ftp://ftp.hermes.acri.fr/GLOB/meris/month/2011/09/01/L3m_20110901-20110930__GLOB_4_GSM-MER_CHL1_MO_00.nc",
httr::authenticate(Sys.getenv("ACRI_FTP_USERNAME"), Sys.getenv("ACRI_FTP_PASSWORD")),
httr::write_disk("~/Data/L3m_20110901-20110930__GLOB_4_GSM-MER_CHL1_MO_00.nc"),
httr::progress()
) -> res
httr::stop_for_status(res)
您可以放心地忽略警告和诊断信息:
## Warning messages:
## 1: In parse_http_status(lines[[1]]) :
## NAs introduced by coercion to integer range
## 2: Failed to parse headers:
## 229 Entering Extended Passive Mode (|||28926|)
## 200 Type set to I
## 213 92373747
## 150 Opening BINARY mode data connection for L3m_20110901-20110930__GLOB_4_GSM-MER_CHL1_MO_00.nc (92373747 bytes)
## 226 Transfer complete
因为它具有适用于file
命令的魔术标头:
$ file L3m_20110901-20110930__GLOB_4_GSM-MER_CHL1_MO_00.nc
L3m_20110901-20110930__GLOB_4_GSM-MER_CHL1_MO_00.nc: Hierarchical Data Format (version 5) data
希望这确实帮助了一个真正陷入困境的人,因为(如上所述)SO和其他地方存在大量关于如何向FTP服务器进行身份验证,执行目录遍历和下载内容的内容。现在,该语料库又增加了一个。