我用lucene 4.3.1实现了模糊搜索,但我对结果不满意。我想指出一些它应该返回的结果。因此,例如,如果我想要10个结果,它应该返回10个最佳匹配,无论它们有多糟糕。如果我搜索的单词与索引中的任何内容非常不同,则大多数情况下它不会返回任何内容。我怎样才能获得更多/更模糊的结果?
这里是我的代码:
public String[] luceneQuery(String query, int numberOfHits, String path)
throws ParseException, IOException {
File dir = new File(path);
Directory index = FSDirectory.open(dir);
query = query + "~";
Query q = new QueryParser(Version.LUCENE_43, "label", analyzer)
.parse(query);
IndexReader reader = DirectoryReader.open(index);
IndexSearcher searcher = new IndexSearcher(reader);
Query fuzzyQuery = new FuzzyQuery(new Term("label", query), 2);
ScoreDoc[] fuzzyHits = searcher.search(fuzzyQuery, numberOfHits).scoreDocs;
String[] fuzzyResults = new String[fuzzyHits.length];
for (int i = 0; i < fuzzyHits.length; ++i) {
int docId = fuzzyHits[i].doc;
Document d = searcher.doc(docId);
fuzzyResults[i] = d.get("label");
}
reader.close();
return fuzzyResults;
}
答案 0 :(得分:5)
Lucene 4.x中的FuzzyQuery
不再支持大的编辑距离。 FuzzyQuery
的当前实现是对Lucene 3.x实现的性能的巨大改进,但仅支持两次编辑。大于2 Damerau-Levenshtein编辑的距离被认为很少有用。
根据FuzzyQuery
documentation,如果你真的必须有更高的编辑距离:
如果您真的想要这个,请考虑使用n-gram索引技术(例如建议模块中的SpellChecker)。
强烈的暗示是你应该重新思考你想要完成的事情,并找到一个更有用的方法。