从Wiki转储中查找中介语相关文章

时间:2018-02-11 08:35:25

标签: wikipedia-api mediawiki-api wikidata wikimedia wikimedia-dumps

查找维基百科英文文章的完整列表及其相关文章,其中包括法语和西班牙语等英语以外的其他语言,这是一个他们无法解答的问题。您可以找到一些类似的问题,但其中大多数与维基百科的先前结构有关,而其他人则没有正确答案。

我们可以从这里下载维基百科英语和西班牙语文章的转储文件: English WikiSpanish Wiki

在enwiki和eswiki中有一些名为langlinks aka sitelinks的数据,目的是找到中介语相关的文章。但目前尚不清楚如何使用它们来查找语际相关文章(西班牙文章与每个英文文章相关)。 langlinks模式如下:

CREATE TABLE `langlinks` (
  `ll_from` int(10) unsigned NOT NULL DEFAULT '0',
  `ll_lang` varbinary(20) NOT NULL DEFAULT '',
  `ll_title` varbinary(255) NOT NULL DEFAULT '',
   UNIQUE KEY `ll_from` (`ll_from`,`ll_lang`),
   KEY `ll_lang` (`ll_lang`,`ll_title`)
) ENGINE=InnoDB DEFAULT CHARSET=binary;

具有英语特殊'll_from'字段的记录是否与西班牙语中类似'll_from'字段的记录相关?如果是,为什么我在这两个langlinks文件中找不到具有类似ll_from字段的记录?

再次,如何使用这些langlinks文件查找中介语相关文章?我不想使用其他工具,如维基数据工具包。

1 个答案:

答案 0 :(得分:0)

此页面很有用:Manual:langlinks table

<强> 字段 ll_from 引用页面的page_id。

<强> ll_lang 目标语言代码,符合ISO 639-1标准。

<强> ll_title 目标的标题,包括命名空间(FULLPAGENAMEE样式)。

正如模式中所示,ll_lang和ll_title的组合是唯一的。