通过R在维基百科上提交查询

时间:2014-09-04 10:26:10

标签: r

我正在尝试开发一个R脚本,它接受一个字符串并在维基百科搜索框中提交它。在到达该字符串的页面后,R程序应该从页面中提取所有表。例如,如果字符串是曼联,R脚本应该在维基百科上提交一个查询,将其带到曼联网页并提取所有表格并将其转换为数据框。

P.S:我刚刚开始尝试在R中进行网页抓取,所以任何帮助都会非常感激。

1 个答案:

答案 0 :(得分:1)

这个问题将被关闭,因为它目前有点广泛但你能以最基本的方式做的是使用readHTMLTable包中的XML函数。它是一个有用的实用程序函数,将处理基本的html表。

appURL <- "http://en.wikipedia.org/wiki/Manchester United"
library(XML)
out <- readHTMLTable(appURL)
> head(out[[1]], 2)
V1                              V2   V3
1   Full name Manchester United Football Club <NA>
2 Nickname(s)               The Red Devils[1] <NA>

可能有R包可以利用维基百科可能存在的任何API。例如,快速搜索产生了http://cran.r-project.org/web/packages/WikipediR/index.html