我正在尝试实现弹性搜索映射,以优化大量文本中的短语搜索。根据{{3}}中的建议,我使用木瓦过滤器为每个短语构建多个unigrams。
两个问题:
在上面提到的文章中,过滤掉了停用词并且带状疱疹通过插入“_”标记来处理丢失的空格。应该从引擎索引的单字组中删除这些标记。这种消除的目的是能够响应包含各种“无用”单词的短语查询。鉴于Lucene正在弃用此类行为所需的某个功能(enable_position_increments),标准解决方案(如文章中所述)已不再可行。我该如何解决这类问题?
鉴于标点符号的消除,我经常会看到由这个包含两个短语的混乱过程产生的单词。从搜索的角度来看,包含来自两个单独短语的单词的任何结果都是不正确的。如何避免(或缓解)此类问题?