如何使用R中的XML和Rcurl从HTML页面中提取表格作为data.frame

时间:2018-04-21 19:22:18

标签: html r xml rcurl

我需要从以下HTML页面中提取一个表作为data.frame:

https://www.forbes.com/powerful-brands/list/#tab:rank.html

1 个答案:

答案 0 :(得分:1)

该表有实时内容,所以你需要一个无头浏览器,Rselenium应该是你的首选。此外,你需要rvest来提取表格

注意:导航到该页面后,会出现一个转换页面,您可以单击手动继续或等待几秒钟。 enter image description here

<强>代码:

outerHeight

然后您可以在之后清理数据: This page will pop up

这些包的介绍和教程:
datatable
https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-basics.html