Question

我希望在维基百科上刮掉几个高尔夫球手的网页。一些玩家名称与其他人相同，在这种情况下，URL必须包含文本＆＃39;（高尔夫球手）＆＃39;附加到达右页

我希望尝试使用此添加的每个玩家，如果页面不存在，则恢复为普通名称可能有更好的方法，但我希望能够获得响应的内容大小。如果没有达到某个水平，例如2kb然后那不是一个有效的页面

library(httr)

base_url <- "https://en.wikipedia.org/w/api.php"

query_params <- list(action = "parse", 
  page = "Patrick Reed_(golfer)",
  format = "xml")

resp <- GET(url = base_url, query = query_params)

resp

Response [https://en.wikipedia.org/w/api.php? 
action=parse&page=Patrick%20Reed_%28golfer%29&format=xml]
  Date: 2018-04-08 08:35
  Status: 200
  Content-Type: text/xml; charset=utf-8
  Size: 402 B

因此报告了一个适当的低尺寸，但我不确定如何在扩展列表时如何实现它。根据{{3}}，标题中引用了内容长度，但我无法发现它

TIA

如何使用R

0 个答案: