dbpedia - 从实时dbpedia转储生成不同的数据集

时间：2012-07-24 06:40:13

标签： dbpedia

我正在玩dbpedia download page提供的不同数据集，发现它有点过时了。

然后我从dbpedia live网站下载了最新的转储。当我提取6月30日文件时，我只得到一个巨大的37GB .nt文件。

我想从最新的转储中获取不同的数据集（如下载页面中可用的不同.nt文件）。是否有脚本或流程来执行此操作？

答案 0 :(得分：1)

解决方案1：

您可以使用dbpedia live extractor。https://github.com/dbpedia/extraction-framework。您需要配置适当的提取器（例如：信息框属性提取器，抽象提取器..etc）。它将下载最新的维基百科转储并生成dbpedia数据集。

您可能需要进行一些代码更改才能获得所需的数据。我的一位同事为德国数据集做了这个。你仍然需要大量的磁盘空间。

解决方案2（我不知道是否真的可能。）：

为数据集上的必需属性执行grep。您需要知道要获取的属性的确切URI。

ex：获取所有主页： bzgrep'http://xmlns.com/foaf/0.1/homepage'dbpedia_2013_03_04.nt.bz2＆gt; homepages.nt

它将为您提供所有带有主页的N-triples。您可以在rdf商店中加载它。