如何在不是名词时删除停用词?

时间:2016-07-28 23:18:40

标签: solr stanford-nlp pos-tagger

我正在使用Solr 5并且需要删除停用词以防止过度匹配并避免使用高IDF术语膨胀索引。但是,语料库包括许多部件号和名称缩写,如“Steve A”和“123-OR-A”。在这些情况下,我不希望停用词过滤器工厂删除“A”和“OR”,因为它们需要可搜索。

Stanford POS tagger检测到上面的例子是名词而非停止词语,但是这是解决问题的正确方法吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

只有您可以决定这是否是正确的方法。如果您可以集成POS标签,它会为您提供有用的结果 - 这很好。

但是只是为了给你一个替代方案,你可以看看复制你的字段并以不同的方式处理它们。例如,如果您看到 123-OR-A 被拆分并进行了停用词清理,则可能意味着您的分析器堆栈中有WordDelimiterFilterFactory。那个工厂有很多参数你可以尝试调整。或者,您可以 copyField 将您的内容发送到另一个( store = false )字段,并在不使用WordDelimiterFilterFactory的情况下处理它。然后搜索数据的两个副本,可能会针对不同的字段进行不同的提升。