Elasticsearch帖子荧光笔返回太多句子

时间:2016-03-30 10:30:10

标签: elasticsearch lucene

发布荧光笔我有问题。根据文件: “......发布荧光笔...无论长度如何都会输出句子。”

所以,通过设置: m3a8 我应该只收回一句话。这是90%的时间发生的事情,但有时我会得到一个非常长的文本,显然超过1个句子。例如:(突出显示的单词是污染

  

它是一个合作机构,负责咨询和审议水资源综合管理 - 由国家,市政当局和民间社会共同建立的单位水资源管理10。 [2]该委员会采取民间社会的倡议,目前包括34个市镇,18个位于索罗卡巴盆地,16个位于中上层河流的子流域。 [3]由于工业活动,采矿,未经处理的污水等,这是一条非常<污染严重的河流。

有3个句子,前两个甚至没有突出显示的单词。 我认为这里有一个错误,使发布荧光笔忽略'。'然后是'['。我注意到所有不好的突出显示结果都是如此。

这是一个已知的错误吗?还是我错过了什么? 感谢

1 个答案:

答案 0 :(得分:1)

我不确定自己是否认为它本身就是一个错误。句子界限不仅仅是分割句点(你不想分手,#34; 3.14&#34;或者#34;史密斯先生和#34;),并且经常暧昧。

PostingsHighlighter使用java.text.BreakIterator来检测中断句子的位置。我曾认为BreakIterator的行为基于UAX #29,但这种行为与{({3}})的行为并不完全一致。

因此,它可能是java.text.BreakIterator中的一个错误,或者可能只是他们的算法的工作方式。