使用RSelenium下载pdf

时间:2015-12-27 00:06:06

标签: r web-scraping rselenium

我想用RSelenium包做什么,

步骤:1访问网站 - 我自己的电力公用事业提供商

步骤:2通过明确提供我的用户名和密码来访问我的帐户(这就是我无法共享代码的原因)

步骤:3我点击 '查看我的帐单' 。 该帐单以 pdf 格式显示。

有没有办法下载该文件并保存到特定文件夹? 当我使用download.file()命令时,它不保存文档,而是我得到一个3KB的pdf文件,我无法打开。 Adobe Reader说读取文档时出错。

我尝试的可能方法: 1.右键单击,按下箭头四次,然后转到' SAVE PAGE AS' 点击Enter。

然后它会弹出一个询问文件名和位置的对话框,我无法通过RSelenium输入这些详细信息并保存文件。

示例代码:在线找到一些随机PDF。

url<- "http://www.immigrationpolicy.org/sites/default/files/docs/how_us_immig_system_works.pdf"

setwd("C:/Users/king/Desktop/bill")
library(RSelenium)
library(downloader)
checkForServer()
startServer()
remDr <- remoteDriver()
remDr$open()
remDr$navigate(url)

1 个答案:

答案 0 :(得分:1)

我找到了持续研究的答案。

首先检查是否Rtools is installed(使用此链接找到答案)

然后更新了我的程序

`cprof<-makeFirefoxProfile(list(
  "pdfjs.disabled"=TRUE,
  "plugin.scan.plid.all" = FALSE,
  "plugin.scan.Acrobat" = "99.0",
  "browser.helperApps.neverAsk.saveToDisk"='application/pdf',
  ))
remDr <- remoteDriver(extraCapabilities=cprof)`

尝试仍然更改我无法找到的下载文件夹。我从THIS link

找到答案