我正在尝试在我的数据中的3个字段上实施Lucene搜索。它应该如下工作: 当字段文本是“我的大白猫”时,当我搜索“大猫”它会匹配。
根据教程我添加了AddToLuceneIndex
方法:
private static void AddToLuceneIndex(MyObject myObject, IndexWriter writer)
{
var searchQuery = new TermQuery(new Term("Id", myObject.Id));
writer.DeleteDocuments(searchQuery);
var doc = new Document();
doc.Add(new Field("Field1", myObject.Field1, Field.Store.YES, Field.Index.ANALYZED));
doc.Add(new Field("Field2", myObject.Field2, Field.Store.YES, Field.Index.ANALYZED));
doc.Add(new Field("Field3", myObject.Field3, Field.Store.YES, Field.Index.ANALYZED));
(...)
writer.AddDocument(doc);
}
在我的搜索方法中,我尝试使用PhraseQuery
:
public static IEnumerable<MyObject> Search(string phrase)
{
var luceneDir = FSDirectory.Open(new DirectoryInfo(LuceneDir));
var indexReader = IndexReader.Open(luceneDir, true);
var searcher = new IndexSearcher(indexReader);
var phraseQuery = new PhraseQuery();
phraseQuery.Add(new Term("Field1", phrase));
const int maxHits = 1000;
var collector = TopScoreDocCollector.Create(maxHits, false);
searcher.Search(phraseQuery, collector);
var hits = collector.TopDocs().ScoreDocs;
return MapLuceneToDataList(hits, searcher).ToList();
}
总是有0次点击(尽管有匹配的对象)
当我像这样使用BooleanQuery时:
public static IEnumerable<MyObject> Search(string phrase)
{
var luceneDir = FSDirectory.Open(new DirectoryInfo(LuceneDir));
var indexReader = IndexReader.Open(luceneDir, true);
var searcher = new IndexSearcher(indexReader);
var terms = phrase.Split(new[] { " " }, StringSplitOptions.RemoveEmptyEntries);
var analyzer = new StandardAnalyzer(Version.LUCENE_30);
var queryParser = new MultiFieldQueryParser
(Version.LUCENE_30,
new[] { "Field1", "Field2", "Field3"},
analyzer) { FuzzyMinSim = 0.8f };
var booleanQuery = new BooleanQuery();
foreach (var term in terms)
{
booleanQuery.Add(queryParser.Parse(term.Replace("~", "") + "~"), Occur.MUST);
}
const int maxHits = 1000;
var collector = TopScoreDocCollector.Create(maxHits, false);
searcher.Search(booleanQuery, collector);
var hits = collector.TopDocs().ScoreDocs;
return MapLuceneToDataList(hits, searcher).ToList();
}
它运作良好,但我不需要“大OR猫”,我需要我之前描述过的东西。我使用PhraseQuery
做错了什么?
答案 0 :(得分:4)
PhraseQuery
有两个问题。
如@groverboy所述,您必须单独向PhraseQuery
添加单独的字词。虽然Query.toString()
可能显示相同的内容,但它们并不是一回事。 toString方法不会在PhraseQuery
中显示术语中断。它尝试以尽可能接近标准QueryParser
语法来表示查询,该语法无法表达使用Query
API手动构建的任何可能的查询。您创建的PhraseQuery
将不会通过分析器运行,因此不会被标记化。它只会寻找单个标记“大猫”,而不是两个相邻的标记“大”和“猫”。
explain method提供了比toString
更完整的信息,因此您可能会发现这是一个有用的工具。
此外,您似乎也不想要相邻的令牌,而是需要在查询中加入一些slop。你想要“大猫”来匹配“大白猫”,所以你需要设置足够的允许坡度。
所以,像这样:
var phraseQuery = new PhraseQuery();
phraseQuery.Add(new Term("Field1", "big"));
phraseQuery.Add(new Term("Field1", "cat"));
phraseQuery.setSlop(1);
如果您愿意,也可以通过查询解析器运行查询。简单地说,使用您在第三个代码块中创建的分析器。您可以为查询解析器设置默认短语slop,以处理讨论的slop问题。类似的东西:
queryParser.setPhraseSlop(1)
queryParser.Parse("\"" + phrase + "\"")
// Or maybe just: queryParser.Parse(phrase);
答案 1 :(得分:1)
您需要为短语中的每个单词Term
添加PhraseQuery
,如下所示:
var phraseQuery = new PhraseQuery();
var words = phrase.Split(new Char[] { ' ' }, StringSplitOptions.RemoveEmptyEntries);
foreach (var word in words)
{
phraseQuery.Add(new Term("Field1", word));
}