我想用lucene和jena对dbpedia的一个子集(我在tdb商店中)进行全文搜索。
String TDBDirectory = "path" ;
Dataset dataset = TDBFactory.createDataset(TDBDirectory) ;
但不是所有资源,只有标题。我认为通过仅在需要的三元组上制作索引,我可以执行更快的搜索。 E.g。
<http://de.dbpedia.org/resource/Gurke> <http://www.w3.org/2000/01/rdf-schema#label> "Gurke"@de .
在这里,我想搜索“Gurke”,但不能搜索除#label属性之外的任何其他三元组。 所以我的问题是如何使用#label属性构建索引并仅搜索三元组? 我已经看过http://jena.sourceforge.net/ARQ/lucene-arq.html了,但这对我来说不够详细或太难。
答案 0 :(得分:1)
http://jena.sourceforge.net/是Jena的老家 - 项目现在是http://jena.apache.org/(你是如何设法找到旧页面的?)
该项目最近推出了LARQ的替代品。
http://jena.apache.org/documentation/query/text-query.html
现在这是主代码库的一部分。它将随2.10.2版本一起发布 - 目前您必须使用https://repository.apache.org/content/repositories/snapshots/org/apache/jena/的开发版本。您需要使用Fuseki或将其添加为项目的依赖项。
这个新的文本搜索子系统与TDB和Fuseki相比效果更好。