维基百科:跨多种语言的页面

时间:2010-09-13 22:41:59

标签: java nlp wikipedia information-retrieval

我想在我的项目中使用维基百科转储。我的项目需要以下信息。

  1. 对于维基百科条目,我想知道哪个其他语言包含该页面?
  2. 我想要一个csv或其他常见格式的可下载数据。
  3. 有没有办法获取这些数据?

    由于 巴拉

3 个答案:

答案 0 :(得分:1)

维基媒体基金会提供其所有项目的XML转储,包括英语维基百科。

解析用于语言间链接的英语wiki文章相当简单:此类链接的语法为[[language_code:Name of other language Wikipedia article]],其中language_code通常为两个或三个字母的代码(例如tlh Klingon),基于ISO标准,除了一些例外情况,例如简单英语的simple

答案 1 :(得分:1)

维基媒体在download.wikimedia.org提供不同格式的维基百科转储。

答案 2 :(得分:0)

我会回答这个问题,即使它已经过时因为事情发生了变化:现在还有Wikidata

所有 interlinks 已从Wikipedia文章中删除,现在Wikidata将它们全部托管:您可以查看项目(例如,Q42" Douglas Adams" )和#34;维基百科页面链接到这个项目"部分将为所有不同的维基百科提供附加链接

您可以在此处找到Wikidata API,也可以使用Special:Export页面检索XML中的文章。