我正在使用clucene构建搜索索引,并且我希望确保包含任何令人反感的术语的文档永远不会添加到索引中。使用具有停止列表的StandardAnalyzer是不够好的,因为攻击性文档仍会被添加,并且会在非攻击性搜索时返回。
相反,我希望建立一个文档,然后检查它是否包含任何令人反感的单词,然后仅在它没有的情况下添加它。
干杯!
答案 0 :(得分:0)
您无法在文档中真正访问该类型的数据
您可以做的是在文本上手动运行分析链并单独检查每个标记。您可以在一个愚蠢的循环中执行此操作,或者通过向链中添加另一个分析器来提升您稍后检查的标记。
这引入了更多的工作,但是实现IMO的最佳方式。