应用错误收集

我正在使用一些自定义法语分析仪，使用精确词和停用词以及雪球词干，这会导致删除部分令牌，从而导致（特别是在使用ngrams或带状疱疹时）许多重复的令牌具有相同的“开始”和“ pos“，相同的内容，只有”结束“不同

这里有一个例子，副本令牌“丑闻”或“付费”具有不同的长度（结束 - 开始）但包含相同的文本，并具有相同的“pos”和“start” Analyzer result exemple

起初我认为“trim”类型的过滤器可以将令牌的“结束”移动到文本的实际末尾，删除令牌的已删除部分留下的空格，但它没有，所以我尝试过使用类型为“unique”的过滤器删除那些没有运气的重复令牌。

我是否认为“唯一”类型过滤器只会删除具有相同“结束”（长度）的令牌？如果是这样，如何修剪/删除那些重复的令牌？或者我犯了一个错误，我的解决方案是“旅行+独特”吗？