java中是否有任何停用词库?
示例:编写一个java程序来读取文件中的输入,然后对每个单词中的字符进行排序。完成后,按升序对所有生成的单词进行排序,最后跟随文件中数值的总和。
请提供任何停止词库以解决上述难题
答案 0 :(得分:4)
Apache Lucene为各种自然语言提供了各种禁用词集,以及用于自然语言处理的大量其他功能。这里提供英语停用词:http://lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html
答案 1 :(得分:0)
无需使用库:只需使用标准软件包即可在几行代码中完成。
FileInputStream读取文件
Scanner轻松搞定您的话。
Double.parseDouble读取数值
Arrays.sort(或任何其他Collection实用程序)对数据进行排序。
System.currentTimeMillis用于衡量您的操作持续时间。
如果您想过滤停用词,只需将它们放入HashSet并在阅读时过滤它们。
答案 2 :(得分:0)
答案 3 :(得分:0)
请参阅Wiki Page For Stop Words上的外部链接 Google还有some implementation