RDF 3x triplestore是内存或基于磁盘的

时间:2012-12-04 02:21:25

标签: database rdf triplestore

RDF-3x triplestore是内存还是磁盘?

1 个答案:

答案 0 :(得分:2)

RobV提到的论文是

  Neumann,Thomas和Gerhard Weikum。 “RDF-3X: a RISC-style engine for RDF。”VLD​​B捐赠基金会议程序1.1(2008):647-659。

如果您熟悉用于实现数据库的一些数据结构,那么他们使用B+-trees的事实会强烈建议您使用磁盘而不是内存模型。如果你没有太多接触这些结构,那么它可能不那么明显。本文中的几点更直接(重点补充):

  

请注意,MonetDB和RDF-3X都可以在不到半小时的时间内导入数据集,并且可以按秒的顺序运行查询。 其他语义Web方法通常假设RDF数据适合主存,这不是这里的情况。因此下面的所有实验仅考虑RDF-3X,基于列存储的方法在MonetDB之上,以及基于PostgreSQL的三元组商店。

他们还会在运行测试之前清除文件系统缓存。这会对加载查询引擎产生一些影响,但更多的是基于文件系统的数据库的性能:

  

为了评估RDF-3X的性能,我们使用了三种   具有不同特征的大型数据集并进行比较   查询运行时间到其他方法(下面讨论)。   所有实验均在Dell D620 PC上进行   2 Ghz Core 2 Duo处理器,2 GB内存和   运行64位Linux 2.6.24内核。 对于冷缓存   实验中我们使用了/ proc / sys / vm / drop缓存内核   在重新启动之前删除所有文件系统缓存的接口   正在测试的各种系统。我们重复了所有查询   五次(包括丢弃缓存和系统   重启)并采取了最好的结果,以避免造成的工件   OS活动。对于热缓存,我们运行了五次查询   没有丢弃缓存,再次获得最佳运行时间。

注意到RDF-3X的性能是因为从磁盘读取较少的结果:

  

比较冷缓存时间和热缓存时间时,   很明显,磁盘I / O对它有很大的影响   整体运行时间。由于RDF-3X,它只读取较少的数据   高度压缩的索引结构[。]