在getURL中设置“信息丰富的用户代理字符串”

时间:2012-01-29 20:57:06

标签: r wikipedia-api

我正在尝试访问Wikipedia页面以获取页面列表,并收到以下错误:

library(RCurl)
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4"
getURL(u)
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n"

我希望通过Wikipedia api访问该页面,但是I am not sure it would work

问题是其他页面没有问题,例如:

u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk"
getURL(u)

有什么建议吗?

旁注:总的来说,我宁愿不刮取维基页面并浏览api,但我担心这些特定的页面还没有通过api ...

1 个答案:

答案 0 :(得分:13)

根据the documentation of RCurl,您可以通过添加httpheader参数来指定其他标头:

getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info"))