使用getURL在R中进行Web Scraping

时间:2016-01-06 18:44:21

标签: r web web-scraping

您好我正试图通过链接“http://www.forbes.com/powerful-brands/list/3/#tab:rank”将世界powerfl品牌的数据读入使用R的数据名称

我是初学者,所以我尝试使用以下代码来检索数据

search_desktop_file()

任何人都可以帮我从提到的网页上检索数据

2 个答案:

答案 0 :(得分:1)

他们使用XHR请求通过javascript填充页面。使用浏览器开发者工具查看网络请求

enter image description here

直接抓住JSON:

brands <- jsonlite::fromJSON("http://www.forbes.com/ajax/list/data?year=2015&uri=powerful-brands&type=organization")
str(brands)

## 'data.frame':    100 obs. of  10 variables:
##  $ position          : int  12 44 83 87 13 22 1 39 16 72 ...
##  $ rank              : int  12 44 83 87 13 22 1 39 16 72 ...
##  $ name              : chr  "AT&T" "Accenture" "Adidas" "Allianz" ...
##  $ uri               : chr  "att" "accenture" "adidas" "allianz" ...
##  $ imageUri          : chr  "att" "accenture" "adidas" "allianz" ...
##  $ industry          : chr  "Telecom" "Business Services" "Apparel" "Financial Services" ...
##  $ revenue           : num  132400 32800 14900 131600 87500 ...
##  $ oneYearValueChange: int  17 14 -14 -6 32 13 17 1 -5 -1 ...
##  $ brandValue        : num  29100 12000 6800 6600 28100 ...
##  $ advertising       : num  3272 88 NA NA 3300 ...

答案 1 :(得分:0)

为什么不尝试this之类的东西。基本上,做一些事情:

download.file(forbe, htmldata, auto, quiet = FALSE, cacheOK = TRUE)

读取数据应该在htmldata数组变量中。