自动搜索维基百科等网页

时间:2015-10-25 18:55:46

标签: r excel web-scraping

我的问题相当笼统而且不仅仅对维基百科有特殊性,我想知道有没有办法自动化搜索和选择搜索结果。 举例来说明我打算: 让我们说我想撰写有关美国食品的文章,我想阅读有关大约500种食材的信息,例如食材,质地,菜肴(以县为主),制作方法等。不同的美国食物。让我们说这些都可以在Wiki上获得,我有一张excel表,其中包含这些菜肴和列的名称,用于指定其属性。但我不想手动查找这些菜肴/食物,我可以自动化这个过程吗?我正在寻找一些一般性的指导,一些开源链接,一些伪代码或算法来解决这个问题。任何帮助表示赞赏。

感谢。

PS:如果逻辑有一些链接来帮助用R执行它,那就好了,因为我的项目的其他方面已经在R中构建了。另外我和#39;我希望扩大搜索范围以包含其他主要信息收集网站/搜索引擎。

1 个答案:

答案 0 :(得分:1)

使用WikipediR包可以相对快速地完成:

require(WikipediR)
phrs <- c("car","house")
j <- 1
for (i in phrs) {
    pgs[j] <- page_content("en", "wikipedia", page_name = i, as_wikitext = TRUE)
    j <- j + 1
}

该解决方案相当偶然地假设您的食品名称与维基百科上的页面名称相对应。很可能这不是所有项目的情况。您可以考虑使用pages_in_category一次来源更多页面。对于给定的类别(食物),我认为我会将我的列表与pages_in_category匹配,如果错误的数量与进行数据匹配无关紧要。