我正在尝试从维基百科文章中提取有组织的类别列表及其子类别。
文章是:http://en.wikipedia.org/wiki/Outline_of_academic_disciplines
它不必动态编码到我的网站中。我也愿意借助电子表格(importxml
,importhtml
等语句)手动提取数据。
但是,对于上面的文章,我仍然没有找到一种优雅的方法(电子表格提取或通过API)。 (通过查看源代码,您可以看到importhtml
带有表作为查询输入单个单元格中的所有列表项,importhtml
带有列表,因为查询不区分列表(即:没有办法知道哪些列表是哪些类别的子列表))。
有人可以提供一些建议。
答案 0 :(得分:0)
在维基百科"类别"是一个特定术语:要通过API获取该文章的类别,查询如下:
http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=categories&titles=Outline%20of%20academic%20disciplines
但是,据我所知,您需要该表中列出的维基百科文章的所有网址。
有几种方法可以做到这一点: 最简单的是从文章(here)中取出wikicode,将其粘贴在一个好的编辑器中(我推荐Sublime),然后你就可以使用Search&更换以刮掉" [[""和"]]",并在每篇文章前添加网址
http://en.wikipedia.org/wiki/
通过它,您可以获得该页面中提到的文章的完整URL列表。 希望这是你寻求的(你提到一些代码,但我看不到任何代码)。