如何解析维基百科转储以创建链接图?

时间:2013-10-10 12:31:12

标签: parsing graph hyperlink dump wikipedia

我正在寻找一种方法来解析维基百科转储并检索每个页面中找到的超链接。我的主要目标是创建一个关于从一个维基百科页面转到另一个维基百科页面的可能路径的有向图。

例如:“Dog”的页面定义包含“Canis lupus”的链接。所以我会有一个 Dog-> Canis Lupus作为输出。

PS:如果有的话,我更喜欢python库。

2 个答案:

答案 0 :(得分:2)

最简单的方法是使用已包含有关页面之间链接的信息的转储:pagelinks.sql。要使用它,您可以将其导入MySQL数据库,然后您可以从任何语言访问该数据库。要了解该转储中的数据,您还需要导入page.sql。

答案 1 :(得分:-1)

因为,你正在尝试处理图论,你需要两件事 -

  • 制作图表
  • 图表的实施和存储

制作

您可能会尝试使用维基媒体的XML转储,以达到您的目的 我建议最好的解决方案是使用某种解析脚本从文档中提取出链接。

实施

要存储巨大图表,您必须将脚本输出存储在某种图形数据库中。在这里查看一些受欢迎的here

因此,这个过程很简单。您的脚本将逐个解析文档并将结果存储在图形数据库中,您可以在以后使用它。