从WikiData RDF文件中提取三元组

时间:2020-02-07 12:23:00

标签: wikipedia wikidata

我正在尝试从wikidata中提取干净的知识库。我想以许多三元组结束,例如:

(London, capital of, UK) 
(G.W. Bush, occupation, politician)
... ...

如果您点击this链接,则可以下载一些包含三元组的RDF文件。我已经下载了一个.nt文件,因为它似乎很适合我的需求。这是文件内容的样子:

<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "scr\u00EDbhneoir Sasanach"@ga .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "niv\u00EEskar\u00EA br\u00EEtan\u00EE"@ku-latn .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "Panulih jo palawak dari Inggirih"@min .
... ...

您知道我如何解析所有URI吗?我试图寻找一个文件映射URI以清除文本,但找不到任何内容。在我浏览过的教程视频中,它们正在使用wdt:P106wd:Q42之类的ID,我可以在此处看到的小片段中看到Q42。但是似乎有很多非常不同的URI。另外,您知道我如何过滤掉与英文维基百科无关的所有内容吗?

任何指向一些好的教程的指针也将非常受欢迎。

0 个答案:

没有答案