我正在尝试从Wikipedia转储中提取中介语链接。似乎这些链接已移至WikiData Project,并且仅通过API提供访问。
此分支解释了如何处理该问题并建议切换到API: Retrieving the Interlanguage links from an exported Wikipedia article?
然而,我的研究范围似乎太大,无法使用Web API(数百万条查询)。有谁知道是否有可能从API以外的任何地方提取这些链接?解析任何大小的转储比查询API更受欢迎。
我用过的维基百科转储: http://dumps.wikimedia.org/backup-index.html
我使用的WikiData转储: http://dumps.wikimedia.org/wikidatawiki/latest/
答案 0 :(得分:2)
一个非常出色的易于处理维基数据转储的库是Wikidata Toolkit,它为您抽象了很多细节。在最新版本0.3
中,有越来越多的示例脚本可以帮助完成像您这样的基本任务。在examples readme我们找到了SitelinksExample.java
:
此程序显示如何获取有关站点链接的信息 用于Wikidata转储。维基媒体项目的链接使用密钥 喜欢" enwiki"英语维基百科或" hewikivoyage"为希伯来语 维基导游。要找出这些代码的含义,并创建URL 对于这些项目的文章,Wikidata Toolkit包括一些 下载和处理站点链接信息的简单功能 对于给定的项目。此示例显示如何使用此功能。