应用错误收集

如何在不是名词时删除停用词？

时间：2016-07-28 23:18:40

标签： solr stanford-nlp pos-tagger

我正在使用Solr 5并且需要删除停用词以防止过度匹配并避免使用高IDF术语膨胀索引。但是，语料库包括许多部件号和名称缩写，如“Steve A”和“123-OR-A”。在这些情况下，我不希望停用词过滤器工厂删除“A”和“OR”，因为它们需要可搜索。

Stanford POS tagger检测到上面的例子是名词而非停止词语，但是这是解决问题的正确方法吗？

谢谢！

1 个答案:

答案 0 :(得分：0)

只有您可以决定这是否是正确的方法。如果您可以集成POS标签，它会为您提供有用的结果 - 这很好。

但是只是为了给你一个替代方案，你可以看看复制你的字段并以不同的方式处理它们。例如，如果您看到 123-OR-A 被拆分并进行了停用词清理，则可能意味着您的分析器堆栈中有WordDelimiterFilterFactory。那个工厂有很多参数你可以尝试调整。或者，您可以 copyField 将您的内容发送到另一个（ store = false ）字段，并在不使用WordDelimiterFilterFactory的情况下处理它。然后搜索数据的两个副本，可能会针对不同的字段进行不同的提升。