我正在玩Apache Solr,我想在同一领域使用两种不同的分析仪。基本上我想要实现的是检测文本中的某些正则表达式并将它们视为单个标记。应使用另一种分析仪处理文本的其余部分。
这样,当用户搜索与正则表达式匹配的内容时,只有在准确的情况下才会获得匹配。另一方面,将使用更多标准技术分析文本的其余部分。
示例:
SN-231 / II 28-ba中有些复杂的签名字段匹配正则表达式。
当用户搜索SN-231/II 28-ba
时,她会得到:
一些带有 SN-231 / II 28-ba 的单词内部复杂的签名字段与正则表达式相匹配。
当她搜索II 28
等组件时,她没有得到匹配(正确)。当她搜索其他单词时,例如some field
,她会得到:
一些字样,其中一个SN-231 / II 28-ba 一些复杂的签名字段与正则表达式相匹配。
我正考虑在多个领域使用相同的文字,但我担心文字突出显示。一般来说,它也感觉很骇人。此外,我会对包含签名和常规文本的搜索进行处罚。