我正在尝试访问Wikipedia页面以获取页面列表,并收到以下错误:
library(RCurl)
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4"
getURL(u)
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n"
我希望通过Wikipedia api访问该页面,但是I am not sure it would work。
问题是其他页面没有问题,例如:
u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk"
getURL(u)
有什么建议吗?
旁注:总的来说,我宁愿不刮取维基页面并浏览api,但我担心这些特定的页面还没有通过api ...
答案 0 :(得分:13)
根据the documentation of RCurl
,您可以通过添加httpheader
参数来指定其他标头:
getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info"))