我想知道如何在5,000万个条目的总数中,找出每种语言在Wikidata中有多少个标签。
例如,在https://query.wikidata.org中,我尝试使用加泰罗尼亚语(“ ca”)
SELECT ?lang (COUNT(DISTINCT ?item) AS ?count) WHERE {
?item schema:inLanguage "ca" .
} GROUP BY ?lang
ORDER BY DESC (?count)
并得到703351的结果,但是我认为这是不正确的,因为我下载了Wikidata转储(从https://dumps.wikimedia.org/wikidatawiki/entities/中),并且已经在加泰罗尼亚语中提取了超过200万个标签(提取过程仍在进行中)正在运行)
那么,关于我在做什么错的任何线索?
谢谢!
答案 0 :(得分:1)
如上述注释所述,使用Quarry:
https://quarry.wmflabs.org/query/27976
USE wikidatawiki_p;
DESCRIBE wb_terms;
SELECT COUNT(*) FROM wb_terms
WHERE term_type = 'label' AND term_language = "ca";