从Wiki转储获取中介语链接

时间:2014-07-13 21:33:36

标签: api hyperlink dump wikipedia wikidata

我正在尝试从Wikipedia转储中提取中介语链接。似乎这些链接已移至WikiData Project,并且仅通过API提供访问。

此分支解释了如何处理该问题并建议切换到API: Retrieving the Interlanguage links from an exported Wikipedia article?

然而,我的研究范围似乎太大,无法使用Web API(数百万条查询)。有谁知道是否有可能从API以外的任何地方提取这些链接?解析任何大小的转储比查询API更受欢迎。

我用过的维基百科转储: http://dumps.wikimedia.org/backup-index.html

我使用的WikiData转储: http://dumps.wikimedia.org/wikidatawiki/latest/

1 个答案:

答案 0 :(得分:2)

一个非常出色的易于处理维基数据转储的库是Wikidata Toolkit,它为您抽象了很多细节。在最新版本0.3中,有越来越多的示例脚本可以帮助完成像您这样的基本任务。在examples readme我们找到了SitelinksExample.java

  

此程序显示如何获取有关站点链接的信息   用于Wikidata转储。维基媒体项目的链接使用密钥   喜欢" enwiki"英语维基百科或" hewikivoyage"为希伯来语   维基导游。要找出这些代码的含义,并创建URL   对于这些项目的文章,Wikidata Toolkit包括一些   下载和处理站点链接信息的简单功能   对于给定的项目。此示例显示如何使用此功能。