如何编写SPARQL查询,有效地匹配字符串文字而忽略大小写

时间:2012-05-18 21:35:36

标签: rdf sparql jena arq tdb

我正在使用Jena ARQ针对从Jena TDB读取的大型本体编写SPARQL查询,以便根据rdfs标签查找与概念相关的类型:

SELECT DISTINCT ?type WHERE {
 ?x <http://www.w3.org/2000/01/rdf-schema#label> "aspirin" .
 ?x <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> ?type .
}

这很好用,实际上很快(<1秒)。不幸的是,对于某些术语,我需要以不区分大小写的方式执行此查询。例如,由于标签"Tylenol"位于本体中,而不是"tylenol",因此以下查询为空:

SELECT DISTINCT ?type WHERE {
 ?x <http://www.w3.org/2000/01/rdf-schema#label> "tylenol" .
 ?x <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> ?type .
}

我可以使用FILTER语法编写此查询的不区分大小写的版本,如下所示:

SELECT DISTINCT ?type WHERE {
 ?x <http://www.w3.org/2000/01/rdf-schema#label> ?term .
 ?x <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> ?type .
 FILTER ( regex (str(?term), "tylenol", "i") )
}

但现在查询需要一分钟才能完成!有没有办法以更有效的方式编写不区分大小写的查询?

2 个答案:

答案 0 :(得分:18)

在SPARQL中可以使用的所有可能的字符串运算符中,regex可能是最昂贵的字符串运算符。如果您避开regex并且在测试的两侧使用UCASELCASE,则您的查询可能会运行得更快。类似的东西:

SELECT DISTINCT ?type WHERE {
 ?x <http://www.w3.org/2000/01/rdf-schema#label> ?term .
 ?x <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> ?type .
 FILTER (lcase(str(?term)) = "tylenol")
}

这可能会更快,但一般来说,对于任何三重商店的文本搜索都不会有出色的表现。三重商店非常擅长图形匹配,并且不太适合字符串匹配。

答案 1 :(得分:2)

使用FILTER查询的查询运行较慢的原因是因为?term是未绑定的,它需要扫描PSO或POS索引以查找具有rdfs:label谓词的所有语句,并针对正则表达式过滤它们。当它绑定到具体资源时(在第一个示例中),它可以使用OPS或POS索引仅扫描具有rdfs:label谓词和指定对象资源的语句,这将具有更低的基数。

此类文本搜索问题的常见解决方案是使用外部文本索引。在这种情况下,Jena提供了一个名为LARQ的自由文本索引,它使用Lucene执行搜索并将结果与​​查询的其余部分连接起来。