Freebase - 如何使用freebase-rdf-latest?

时间:2015-02-02 19:15:38

标签: freebase

我从freebase.com下载了freebase-rdf-latest。我解压缩它,现在我有一个380.7Gb的文件。 我该如何阅读这些数据?你推荐我哪个节目? 谢谢你的帮助!

2 个答案:

答案 0 :(得分:3)

我不同意@Nandana并且说你绝对应该将它加载到三重商店中以供大多数使用。它有很多冗余,即使没有冗余,通常你只对它的一小部分感兴趣。

此外,对于大多数应用程序,您可能希望保留压缩文件。您可以比从文件系统中读取未压缩版本更快地解压缩它。如果您需要将其拆分以在MapReduce环境中进行处理,则该文件是(或至少曾经是)一系列连接的压缩文件,可以拆分而无需解压缩。

Nandana对于考虑衍生数据产品提出了很好的建议。需要考虑的权衡是它们的更新频率以及过滤/提取管道的透明度。

对于简单的任务,使用zgrep,cut和相关的Unix命令行工具可以获得最新的数据。

答案 1 :(得分:2)

您必须将数据加载到三重商店,例如Virtuoso。您可以查看如何在以下引用中加载数据。

但是,您可能对其他项目感兴趣,这些项目提供了预先加载到三重存储中的已清理版本的freebase。

  

SindiceTech Freebase distribution可以使用Freebase数据   完整下载,但今天,使用它"作为一个整体"简直就是这么简单。   SindiceTech Freebase发行版解决了所有这些问题   Freebase知识预装在RDF特定数据库中(也称为   triplestore)并配备了一套工具,使其更容易   撰写查询并理解整个数据。

     

:BaseKB:BaseKB是一个源自Freebase的RDF知识库,a   Google知识图表的主要来源; :BaseKB包含about   Freebase转储数量的一半,因为它删除了琐碎的事实,   形成不良和重复的事实使处理变得困难。该   最新版本:BaseKB Gold可以通过BitTorrent下载,   或者,如果您希望对其运行SPARQL查询,则可以在其中运行它   AWS云,预先加载到OpenLink Virtuoso 7中。