我正在将Crate用于德国新闻网站并广泛使用全文搜索(通常效果很好)。但是我想知道停用词的用法。我想尽量减少这个,因为搜索速度很快,所以我不太担心性能。这是可取的吗?并且:默认情况下实际使用哪些停用词 - 是否有某个内置停用词的列表?
答案 0 :(得分:2)
内置的单词实际上是来自lucene并且在里面
包含在lib包的lib目录中的lucene-analyzers-common*.jar
文件
压缩包。
如果您提取jar文件的内容,您将找到一个名为的文件
german_stop.txt
包含所有德语停用词。
lucene源代码中还有一组单词标记为 已弃用,因此我认为它已不再使用。这些话是:
"einer", "eine", "eines", "einem", "einen",
"der", "die", "das", "dass", "daß",
"du", "er", "sie", "es",
"was", "wer", "wie", "wir",
"und", "oder", "ohne", "mit",
"am", "im", "in", "aus", "auf",
"ist", "sein", "war", "wird",
"ihr", "ihre", "ihres",
"als", "für", "von", "mit",
"dich", "dir", "mich", "mir",
"mein", "sein", "kein",
"durch", "wegen", "wird"
我认为默认值足够好,除非你遇到麻烦 具体的话我没有理由调整停用词。