应用错误收集

我希望你能帮我解决这个问题。我打算做什么：给定一个正确的文本，我想计算每个词干化令牌ngrams的频率，而没有停用词（换句话说，停用词已被删除）。

情况如下：我正在使用ShingleAnalyzerWrapper + StandardAnalyzer为IndexWriter索引一些文本，当我向IndexWriter添加文档时（如：indexwriter.addDocument（doc，analyzer）;其中，分析符是ShingleAnalyzerWrapper + StandardAnalyzer）。

但问题是：当我得到术语频率和术语时，停用词似乎被下划线代替。

这是输入：
String text =“我想要我想要链接”;
String text2 =“super by by hard easy”;

如果有什么不清楚，请问我，所以我试着让自己更清楚

感谢您的帮助

我怎样才能使用lucene的shingleanalyzerwrapper + standardanalyzer + indexreader？

1 个答案: