从维基百科文章中提取数据

时间:2014-12-02 18:52:37

标签: wikipedia

我正在尝试从维基百科文章中提取有组织的类别列表及其子类别。 文章是:http://en.wikipedia.org/wiki/Outline_of_academic_disciplines 它不必动态编码到我的网站中。我也愿意借助电子表格(importxmlimporthtml等语句)手动提取数据。 但是,对于上面的文章,我仍然没有找到一种优雅的方法(电子表格提取或通过API)。 (通过查看源代码,您可以看到importhtml带有表作为查询输入单个单元格中的所有列表项,importhtml带有列表,因为查询不区分列表(即:没有办法知道哪些列表是哪些类别的子列表))。 有人可以提供一些建议。

1 个答案:

答案 0 :(得分:0)

在维基百科"类别"是一个特定术语:要通过API获取该文章的类别,查询如下:

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=categories&titles=Outline%20of%20academic%20disciplines

但是,据我所知,您需要该表中列出的维基百科文章的所有网址。

有几种方法可以做到这一点: 最简单的是从文章(here)中取出wikicode,将其粘贴在一个好的编辑器中(我推荐Sublime),然后你就可以使用Search&更换以刮掉" [[""和"]]",并在每篇文章前添加网址

http://en.wikipedia.org/wiki/

通过它,您可以获得该页面中提到的文章的完整URL列表。 希望这是你寻求的(你提到一些代码,但我看不到任何代码)。