Jena StmtIterator和数据库

时间:2012-07-26 15:30:55

标签: sparql jena arq

我的模型存储在三重存储(持久性)中。 我想选择与某个文档名称相关的所有个人。

我可以用两种方式做到这一点

1)SPARQL请求:

 PREFIX base:<http://example#>
  select ?s2 ?p2 ?o2 
    where {
      {?doc base:fullName <file:/c:/1.txt>; ?p1 ?o1
  } UNION { 
    ?s2 ?p2 ?o2 ;
    base:documentID ?doc    } 
  }

问题:如何从ResultSet创建Jena模型?

2)StmtIterator stmtIterator = model.listStatements(...)

这种方法的问题是我需要多次使用model.listStatements(...)操作:

a)按文档名称

获取文档URI

b)获取与此文档URI相关的个人ID列表

c)最后 - 获得个人收藏

我关注性能 - 运行model.listStatements(...)3次 - 许多数据库请求。

或者在模型创建过程中,所有数据都从数据库读入内存(我对此表示怀疑):

     Dataset ds = RdfStoreFactory.connectDataset(store, conn);
     GraphStore graphStore = GraphStoreFactory.create(ds) ;

1 个答案:

答案 0 :(得分:0)

您需要稍微备份并更清楚地思考您要做的事情。一旦修正了sparql查询(见下文),就可以很好地在结果集上生成一个迭代器,它将为你提供你正在寻找的每个文档的属性。具体来说,对于结果集中的每个值,您为s2p2o2获取了一组绑定。这是您在指定select ?s2 ?p2 ?o2时要求的内容。它通常是你想要的:通常,我们从三重存储中选择一些值以便以某种方式处理它们(例如将它们渲染到UI上的列表中),为此我们确实需要一个迭代器来覆盖结果。通过SPARQL construct查询或SPARQL describe,您可以让查询返回模型而不是结果集。但是,您需要迭代模型中的资源,因此您不会更进一步(除了您的模型更小并且在内存中)。

顺便提一下,您的查询可以改进。变量p1o1使查询引擎无用工作,因为您从不使用它们,并且不需要联合。更正了,您的查询应该是:

PREFIX base:<http://example#>

select ?s2 ?p2 ?o2 
where {
  ?doc base:fullName <file:/c:/1.txt> .
  ?s2 base:documentID ?doc ;
      ?p2 ?o2 .
}

要从Java执行任何查询,选择,描述或构造,请参阅Jena documentation

您可以使用模型API有效地获得与查询相同的结果。例如,(未经测试):

Model m = ..... ; // your model here
String baseNS = "http://example#";
Resource fileName = m.createResource( "file:/c:/1.txt" );

// create RDF property objects for the properties we need. This can be done in
// a vocab class, or automated with schemagen
Property fullName = m.createProperty( baseNS + "fullName" );
Property documentID = m.createProperty( baseNS + "documentID" );

// find the ?doc with the given fullName
for (ResIterator i = m.listSubjectsWithProperty( fullName, fileName ); i.hasNext(); ) {
  Resource doc = i.next();

  // find all of the ?s2 whose documentID is ?doc
  for (StmtIterator j = m.listStatements( null, documentID, doc ); j.hasNext(); ) {
    Resource s2 = j.next().getSubject();

    // list the properties of ?s2
    for (StmtIterator k = s2.listProperties(); k.hasNext(); ) {
      Statement stmt = k.next();
      Property p2 = stmt.getPredicate();
      RDFNode o2 = stmt.getObject();

      // do something with s2 p2 o2 ...
    }
  }
}

请注意,您的架构设计使其更加复杂。例如,如果文档全名资源具有base:isFullNameOf属性,那么您只需执行查找即可获得doc。同样,不清楚为什么需要区分docs2:为什么不简单地将文档属性附加到doc资源?

最后:不,打开数据库连接不会将整个数据库加载到内存中。但是,TDB特别广泛使用图表区域的缓存,以提高查询效率。