我正在尝试在Wikidata转储中提取中介语相关文章。在互联网上搜索后,我发现有一个名为Wikidata Toolkit的工具可以帮助处理这些类型的数据。但是没有关于如何查找不同语言的相关文章的信息。例如,英语中的文章:"Dresden"与意大利语中的文章"Dresda"相关。我的意思是第二个是第一个的翻译版本。 我试图使用该工具包,但我找不到任何解决方案。 请写一些关于如何找到这篇相关文章的例子。
答案 0 :(得分:1)
您可以使用维基数据转储[1]以多种语言在wikipedias之间获取文章的映射。
例如,如果您在底部看到呼吸系统[2]的wikidata条目,则会看到所有文章引用其他语言中的相同主题。
该映射在wikidata转储中可用。只需下载wikidata转储并获取映射,然后从维基百科转储中获取相应的文本。 您可能会遇到其他一些问题,例如解析维基百科重定向。
[1] https://dumps.wikimedia.org/wikidatawiki/entities/ [2] https://www.wikidata.org/wiki/Q7891