我有一个多语言数据集和一个标准分析器,可以很好地处理这个数据集的标记化。唯一不好的部分是它删除了特殊字符,如@,#,:等。有什么方法可以使用标准的标记器,仍然可以搜索特殊字符吗?
我已经研究过组合分析器插件,它没有像我希望的那样工作。显然,分析器的组合不像令牌过滤器那样在链中工作。他们独立工作,这对我没用。 此外,我查看了char映射过滤器,以便在对其进行标记之前处理数据,但它不像单词分隔符标记过滤器那样,我们可以指定“type_table”将特殊字符转换为ALPHANUM。它只是将一个单词映射到另一个单词。因此,我将无法搜索特殊字符。 此外,我已经研究过模式分析器,它可以用于特殊字符,但不推荐用于多语言数据集。
为了解决这个问题,有人能指出我正确的方向吗? 提前谢谢!