Question

我将数据组织在多个图表中。保存三元组的图表很重要。数据结构很复杂，但可以这样简化：

我的商店包含蛋糕，其中有不同蛋糕类型的层次结构，<cake>的所有子类

<http://example.com/a1> a <http://example.com/applecake>
<http://example.com/a2> a <http://example.com/rainbowcake>
...

根据用户在UI中创建的方式，它们最终会显示在不同的图表中。例如，如果用户“烘焙”了一个蛋糕，它会进入<http://example.com/homemade>图表，如果他们“购买”一个蛋糕，则会进入<http://example.com/shopbought>图表。

当我从商店取回蛋糕时，我想知道每个蛋糕是自制还是购买。没有属性，我想纯粹根据存储三元组的图形检索信息。

我尝试了各种方法来实现这一目标，但它们都不适用于Jena TDB。问题是所有的蛋糕都回来了“购买”。然而，所有查询都在Fuseki中工作（在确切的sae数据集上），我想知道这是否是TDB错误或者是否有另一种方式。以下是简化查询（无变化）：

版本1：

SELECT DISTINCT  *
FROM <http://example.com/homemade>
FROM <http://example.com/shopbought>
FROM NAMED <http://example.com/homemade>
FROM NAMED <http://example.com/shopbought>
WHERE {
    ?cake rdf:type ?caketype .
    ?caketype rdfs:subClassOf* <cake>
      {
          GRAPH <http://example.com/homemade> { ?cake rdf:type ?typeHomemade }
      } UNION {
          GRAPH <http://example.com/shopbought> { ?cake rdf:type ?typeShopbought }
      }
    BIND(str(if(bound(?typeHomemade), true, false)) AS ?homemade)
}

第2版：

SELECT DISTINCT  *
    FROM <http://example.com/homemade>
    FROM <http://example.com/shopbought>
    FROM NAMED <http://example.com/homemade>
    FROM NAMED <http://example.com/shopbought>
    WHERE {
        ?cake rdf:type ?caketype .
        ?caketype rdfs:subClassOf* <cake>
        GRAPH ?g {
          ?cake rdf:type ?caketype .
        }
        BIND(STR(IF(?g=<http://example.com/homemade>, true, false)) AS ?homemade)
    }

为什么这个在Fuseki有效而在TDB无效？

修改我开始认为它与GRAPH关键字有关。以下是一些更简单的查询（在Fuseki和tdbquery中工作）以及使用Jena API获得的结果：

SELECT * WHERE { GRAPH <http://example.com/homemade> { ?s ?p ?o }}

0结果

SELECT * WHERE { GRAPH ?g { ?s ?p ?o }}

0结果

SELECT * FROM <http://example.com/homemade> WHERE { ?s ?p ?o }

x结果

SELECT * FROM <http://example.com/homemade> WHERE { GRAPH <http://example.com/homemade> { ?s ?p ?o }}

0结果

SELECT * FROM NAMED <http://example.com/homemade> WHERE { GRAPH <http://example.com/homemade> { ?s ?p ?o }}

0结果

Answer 1

好的，所以我的解决方案实际上与我执行查询的方式有关。我最初的想法是预先过滤数据集，以便只在相关的图形上执行查询（数据集包含许多图形，它们可能非常大，这会使查询“一切”变慢）。这可以通过将它们添加到SPARQL或直接添加到Jena中来完成（尽管这对其他三重存储不起作用）。然而，将这两种方式结合起来“无论如何都要安全”都行不通。

此查询在整个数据集上运行，并按预期工作：

Query query = QueryFactory.create("SELECT * WHERE { GRAPH ?g { ?s ?p ?o } }", Syntax.syntaxARQ);
QueryExecution qexec = QueryExecutionFactory.create(query, dataset);
ResultSet result = qexec.execSelect();

同一个查询只能在特定的图表上执行，哪个图表无关紧要，它不会产生任何结果：

//run only on one graph
Model target = dataset.getNamedModel("http://example.com/homemade");
//OR run on the union of all graphs
Model target = dataset.getNamedModel("urn:x-arq:UnionGraph");
//OR run on a union of specific graphs
Model target = ModelFactory.createUnion(dataset.getNamedModel("http://example.com/shopbought"), dataset.getNamedModel("http://example.com/homemade"), ...);
[...]
QueryExecution qexec = QueryExecutionFactory.create(query, target);
[...]

我的解决方法是现在始终查询整个数据集（它支持SPARQL GRAPH关键字）并且对于每个查询始终指定应运行它的图形以避免必须查询整个数据集。不确定这是否是Jena API的预期行为

SPARQL查询在Fuseki中有效，但在Jena TDB中无效

1 个答案: