Java停止词库

时间:2012-06-22 06:09:07

标签: java

java中是否有任何停用词库?

示例:编写一个java程序来读取文件中的输入,然后对每个单词中的字符进行排序。完成后,按升序对所有生成的单词进行排序,最后跟随文件中数值的总和。

  • 处理数据时删除特殊字符和停用字词
  • 测量执行代码所需的时间

请提供任何停止词库以解决上述难题

4 个答案:

答案 0 :(得分:4)

Apache Lucene为各种自然语言提供了各种禁用词集,以及用于自然语言处理的大量其他功能。这里提供英语停用词:http://lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html

答案 1 :(得分:0)

无需使用库:只需使用标准软件包即可在几行代码中完成。

  • FileInputStream读取文件

  • Scanner轻松搞定您的话。

  • Double.parseDouble读取数值

  • Arrays.sort(或任何其他Collection实用程序)对数据进行排序。

  • System.currentTimeMillis用于衡量您的操作持续时间。

如果您想过滤停用词,只需将它们放入HashSet并在阅读时过滤它们。

答案 2 :(得分:0)

为什么需要一个停用词库?只需将停用词存储在File中并从中读取,如果在文本中找到任何此类词,请将其删除。

另一种方法是保留List个停用词。检查List会比较容​​易。

您可能希望查看this实施。

答案 3 :(得分:0)

请参阅Wiki Page For Stop Words上的外部链接 Google还有some implementation