我希望在维基百科上刮掉几个高尔夫球手的网页。一些玩家名称与其他人相同,在这种情况下,URL必须包含文本'(高尔夫球手)'附加到达右页
我希望尝试使用此添加的每个玩家,如果页面不存在,则恢复为普通名称 可能有更好的方法,但我希望能够获得响应的内容大小。如果没有达到某个水平,例如2kb然后那不是一个有效的页面
library(httr)
base_url <- "https://en.wikipedia.org/w/api.php"
query_params <- list(action = "parse",
page = "Patrick Reed_(golfer)",
format = "xml")
resp <- GET(url = base_url, query = query_params)
resp
Response [https://en.wikipedia.org/w/api.php?
action=parse&page=Patrick%20Reed_%28golfer%29&format=xml]
Date: 2018-04-08 08:35
Status: 200
Content-Type: text/xml; charset=utf-8
Size: 402 B
因此报告了一个适当的低尺寸,但我不确定如何在扩展列表时如何实现它。根据{{3}},标题中引用了内容长度,但我无法发现它
TIA