我从freebase.com下载了freebase-rdf-latest。我解压缩它,现在我有一个380.7Gb的文件。 我该如何阅读这些数据?你推荐我哪个节目? 谢谢你的帮助!
答案 0 :(得分:3)
我不同意@Nandana并且说你绝对应该不将它加载到三重商店中以供大多数使用。它有很多冗余,即使没有冗余,通常你只对它的一小部分感兴趣。
此外,对于大多数应用程序,您可能希望保留压缩文件。您可以比从文件系统中读取未压缩版本更快地解压缩它。如果您需要将其拆分以在MapReduce环境中进行处理,则该文件是(或至少曾经是)一系列连接的压缩文件,可以拆分而无需解压缩。
Nandana对于考虑衍生数据产品提出了很好的建议。需要考虑的权衡是它们的更新频率以及过滤/提取管道的透明度。
对于简单的任务,使用zgrep,cut和相关的Unix命令行工具可以获得最新的数据。
答案 1 :(得分:2)
您必须将数据加载到三重商店,例如Virtuoso。您可以查看如何在以下引用中加载数据。
但是,您可能对其他项目感兴趣,这些项目提供了预先加载到三重存储中的已清理版本的freebase。
SindiceTech Freebase distribution可以使用Freebase数据 完整下载,但今天,使用它"作为一个整体"简直就是这么简单。 SindiceTech Freebase发行版解决了所有这些问题 Freebase知识预装在RDF特定数据库中(也称为 triplestore)并配备了一套工具,使其更容易 撰写查询并理解整个数据。
:BaseKB:BaseKB是一个源自Freebase的RDF知识库,a Google知识图表的主要来源; :BaseKB包含about Freebase转储数量的一半,因为它删除了琐碎的事实, 形成不良和重复的事实使处理变得困难。该 最新版本:BaseKB Gold可以通过BitTorrent下载, 或者,如果您希望对其运行SPARQL查询,则可以在其中运行它 AWS云,预先加载到OpenLink Virtuoso 7中。