Question

我想用lucene和jena对dbpedia的一个子集（我在tdb商店中）进行全文搜索。

String TDBDirectory = "path" ;
Dataset dataset = TDBFactory.createDataset(TDBDirectory) ;

但不是所有资源，只有标题。我认为通过仅在需要的三元组上制作索引，我可以执行更快的搜索。 E.g。

<http://de.dbpedia.org/resource/Gurke> <http://www.w3.org/2000/01/rdf-schema#label> "Gurke"@de .

在这里，我想搜索“Gurke”，但不能搜索除#label属性之外的任何其他三元组。所以我的问题是如何使用#label属性构建索引并仅搜索三元组？我已经看过http://jena.sourceforge.net/ARQ/lucene-arq.html了，但这对我来说不够详细或太难。

Answer 1

http://jena.sourceforge.net/是Jena的老家 - 项目现在是http://jena.apache.org/（你是如何设法找到旧页面的？）

该项目最近推出了LARQ的替代品。

现在这是主代码库的一部分。它将随2.10.2版本一起发布 - 目前您必须使用https://repository.apache.org/content/repositories/snapshots/org/apache/jena/的开发版本。您需要使用Fuseki或将其添加为项目的依赖项。

这个新的文本搜索子系统与TDB和Fuseki相比效果更好。