Rcurl报废不会返回所需的数据

时间:2015-02-18 14:18:09

标签: r rcurl

我正在尝试从网站https://bill.torrentpower.com/获取数据。我希望输入这座城市"艾哈迈达巴德"和服务号码" 3031629"并提取提供账单明细的表格。

我的代码很简单

a<- postForm("https://bill.torrentpower.com/billdetails.aspx",
    "ctl00$cph1$drpCity" = 1,
    "ctl00$cph1$txtServiceNo" =  "3031629",
    .opts = list(ssl.verifypeer = FALSE)
)
write(a,file="a.html")

当我打开文件a.html时,我看不到包含帐单详细信息的表格。所有其他详细信息在a.html上都可见。我的目标是将tablular输出捕获为R对象。提前致谢

1 个答案:

答案 0 :(得分:1)

这里的问题是该表是在页面加载后由javascript代码生成的,因此您将无法获取该表的内容。

这是抓取具有大量动态内容的信息的常见问题。

解决这个问题的方法是使用RSelenium来激发Web浏览器。 http://cran.r-project.org/web/packages/RSelenium/RSelenium.pdf

这会刺激你的R会话中的网页浏览器,你可以使用各种方法浏览网页(参见用户手册获取信息)

就我个人而言,我发现使用PhantomJS组合的RSelenium最有用,因为我使用了大量的Javascript。或者,如果您发现使用R语法abit麻烦,您也可以单独使用PhantomJS。 http://phantomjs.org/

干杯