我使用以下链来分析德语: " SimpleTokenizer - > LowerCase - >停用词 - >解混合器 - >关键词 - Stemmer" Decompounder的类型是DictionaryCompoundWordTokenFilter。 通过我不懂德语,结果令牌看起来不太好。
我的问题: 1)这个链是否一般会产生场景?特别是,我使用Stop两次:在Decompounder之前和之后为了捕捉前后的单词。这是对的吗? 2)显然,Decompounder的成功取决于字典的质量。请为Decompounder提供好的词典。
此致