Java - 从文本文件中删除无用的单词

时间:2014-07-03 15:19:30

标签: java text

我必须编写一个逐行读取文本文件的java程序,并删除"无用的"像" I," "你" "他," "她," "上," "在" ...等等,让所有其他人保持一种情绪分析。有很多,字典是否存在像这样的单词,还是我需要自己写一个?

2 个答案:

答案 0 :(得分:1)

看起来您正在寻找停用词的列表。此类列表可作为the wikipedia page关于该主题的参考。第一个链表如下所示:

  • 一个
  • 上述
  • 之后
  • 之后
  • 再次

它还包含您提到的字词,因此它似乎符合您的要求。

答案 1 :(得分:0)

我认为你应该删除所有代词和介词。一种简单的方法是制作要删除的所有代词和介词的set个字符串(即Set<String>)。然后遍历所有元素,解析每个元素的文本文件以删除这些单词,并在完成后将其重新组合在一起。