我正在使用一些自定义法语分析仪,使用精确词和停用词以及雪球词干,这会导致删除部分令牌,从而导致(特别是在使用ngrams或带状疱疹时)许多重复的令牌具有相同的“开始”和“ pos“,相同的内容,只有”结束“不同
这里有一个例子,副本令牌“丑闻”或“付费”具有不同的长度(结束 - 开始)但包含相同的文本,并具有相同的“pos”和“start” Analyzer result exemple
起初我认为“trim”类型的过滤器可以将令牌的“结束”移动到文本的实际末尾,删除令牌的已删除部分留下的空格,但它没有,所以我尝试过使用类型为“unique”的过滤器删除那些没有运气的重复令牌。
我是否认为“唯一”类型过滤器只会删除具有相同“结束”(长度)的令牌?如果是这样,如何修剪/删除那些重复的令牌?或者我犯了一个错误,我的解决方案是“旅行+独特”吗?