是否有可以处理大型RDF数据集(3.2亿)和SPARQL查询的企业级数据库引擎(Oracle,MS SQL等)?我想我的问题也是:SPARQL / RDF / OWL是否已准备好为企业提供大型真实数据仓库?如果没有,是否有针对典型数据仓库星型模式调整SPARQL / RDF的有效机制。
谢谢!
答案 0 :(得分:3)
答案 1 :(得分:1)
根据Kaarel的建议,今年在ISWC上展示的一个参赛作品使用了4store,尽管竞争对手设置了一些奇怪的配置,Gralik(开发4store)的CTO向我和同事们描述为''疯狂'但4store能够达到那个规模 - http://4store.org
此外,Virtuoso支持这种规模的商店,他们有一个实时应用程序,您可以使用SPARQL查询大多数主要LOD(链接开放数据)数据源,总数约为90亿三元组
Virtuoso - http://virtuoso.openlinksw.com
LOD申请 - http://lod.openlinksw.com/sparql
答案 2 :(得分:1)
我在W3C维基上维护这个大型三重商店列表:
http://esw.w3.org/topic/LargeTripleStores
已知有七七个三重商店可以容纳超过十亿的三倍。其中四个是开源的。如果您有更多信息,请更新上述维基页面。
显然,性能取决于你使用它的目的。我在一个大型工业项目中使用了Virtuoso,而且速度非常快。
答案 3 :(得分:1)
答案 4 :(得分:0)
Intellidimension提供了一个名为Semantic Server的解决方案,该解决方案是在Microsoft的SQL Server 2005或2008之上开发的。它可以轻松扩展到数亿个三元组,我知道他们至少有一个客户满意运行超过十亿个语句的企业部署。
我是他们使用数据集的客户之一> 1亿。我们的计划是迈向数十亿的陈述。
答案 5 :(得分:0)
4store看起来是一个很好的解决方案,但是此时文档非常稀疏,当我上次查看它时,无法从图中删除单个三元组。
我还要看一下BigData
以下是总结其产品的主页的引用。
Bigdata(R)是一种开源横向扩展存储和计算结构,支持可选事务,非常高的并发性和非常高的聚合IO速率。 Bigdata从一开始就设计为分布式数据库架构,针对在100到1000台机器上运行的非常高的聚合IO速率进行了优化,但也可以在单服务器模式下运行。 Bigdata提供了一个分布式文件系统,类似于Google文件系统,但也适用于工作流队列,数据可扩展稀疏行存储,类似于Googles广泛认可的bigtable项目,以及用于在群集上并行化数据密集型工作流的映射/缩减处理。 / p>
Bigdata(R)包含一个支持RDF(S)和OWL Lite推理的高性能RDF存储。 Bigdata RDF存储库是目前唯一能够在集群上运行的RDF数据库,它具有动态的索引键范围分区。 Bigdata RDF Store专为满足大规模语义对齐和联合的要求而设计。 RDF是一种语义Web技术,特别适用于对图形数据和元数据进行建模,例如关联实体链接模型,其中参与者在不断发展的概念本体的背景下以临时方式相互链接对于与特定问题域相关的实体类型和链接类型。 Bigdata RDF Store在数据收集系统中可操作地用于以模式灵活的方式从无数来源创建结构化,半结构化和非结构化数据的混搭。