如何使用R

时间:2018-04-08 08:47:54

标签: r web-scraping httr

我希望在维基百科上刮掉几个高尔夫球手的网页。一些玩家名称与其他人相同,在这种情况下,URL必须包含文本'(高尔夫球手)'附加到达右页

我希望尝试使用此添加的每个玩家,如果页面不存在,则恢复为普通名称 可能有更好的方法,但我希望能够获得响应的内容大小。如果没有达到某个水平,例如2kb然后那不是一个有效的页面

library(httr)

base_url <- "https://en.wikipedia.org/w/api.php"

query_params <- list(action = "parse", 
  page = "Patrick Reed_(golfer)",
  format = "xml")

resp <- GET(url = base_url, query = query_params)

resp

Response [https://en.wikipedia.org/w/api.php? 
action=parse&page=Patrick%20Reed_%28golfer%29&format=xml]
  Date: 2018-04-08 08:35
  Status: 200
  Content-Type: text/xml; charset=utf-8
  Size: 402 B

因此报告了一个适当的低尺寸,但我不确定如何在扩展列表时如何实现它。根据{{​​3}},标题中引用了内容长度,但我无法发现它

TIA

0 个答案:

没有答案