我必须编写一个逐行读取文本文件的java程序,并删除"无用的"像" I," "你" "他," "她," "上," "在" ...等等,让所有其他人保持一种情绪分析。有很多,字典是否存在像这样的单词,还是我需要自己写一个?
答案 0 :(得分:1)
看起来您正在寻找停用词的列表。此类列表可作为the wikipedia page关于该主题的参考。第一个链表如下所示:
它还包含您提到的字词,因此它似乎符合您的要求。
答案 1 :(得分:0)
我认为你应该删除所有代词和介词。一种简单的方法是制作要删除的所有代词和介词的set个字符串(即Set<String>
)。然后遍历所有元素,解析每个元素的文本文件以删除这些单词,并在完成后将其重新组合在一起。