我正在尝试从wikidata中提取干净的知识库。我想以许多三元组结束,例如:
(London, capital of, UK)
(G.W. Bush, occupation, politician)
... ...
如果您点击this链接,则可以下载一些包含三元组的RDF文件。我已经下载了一个.nt
文件,因为它似乎很适合我的需求。这是文件内容的样子:
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "scr\u00EDbhneoir Sasanach"@ga .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "niv\u00EEskar\u00EA br\u00EEtan\u00EE"@ku-latn .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "Panulih jo palawak dari Inggirih"@min .
... ...
您知道我如何解析所有URI吗?我试图寻找一个文件映射URI以清除文本,但找不到任何内容。在我浏览过的教程视频中,它们正在使用wdt:P106
或wd:Q42
之类的ID,我可以在此处看到的小片段中看到Q42。但是似乎有很多非常不同的URI。另外,您知道我如何过滤掉与英文维基百科无关的所有内容吗?
任何指向一些好的教程的指针也将非常受欢迎。