目前我正在使用Lucene.net 2.9.2框架。由于我的搜索,我想实现带有突出显示的文本片段的结果页面(asp.net)。我希望所选片段是一个整个句子,而不仅仅是几个单词。
例如,如果我有文字:
Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。 Ut enim ad minim veniam,quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat。 Duis aute irure dolor in repreptderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。 Excepteur sint occaecat cupidatat 非普通人,在culpa qui officia deserunt mollit anim id est laborum中被捕。
我正在寻找 cupidatat 我想获得片段:
Excepteur sint occaecat cupidatat non proident,sunt in culpa qui officia deserunt mollit anim id est laborum。
我现在的代码是:
var scorer = new QueryScorer(q);
var formatter = new SimpleHTMLFormatter("<div>", "</div>");
var highlighter = new Highlighter(formatter, scorer);
highlighter.SetTextFragmenter(new SimpleFragmenter(100));
var fragments = highlighter.GetBestFragments(stream, text, 1);
但它只返回大小为100的文本范围。
我会感谢任何建议。
答案 0 :(得分:1)
您想要创建一个新的Fragmenter(类似于SimpleFragmenter)。您需要调整的功能是:
public virtual bool IsNewFragment(Token token)
{
bool isNewFrag = token.EndOffset() >= (fragmentSize * currentNumFrags);
if (isNewFrag)
{
currentNumFrags++;
}
return isNewFrag;
}
这可能需要一些调整,直到你得到正确的逻辑,但这应该给你一个很好的开端