请您推荐我使用java库进行文本预处理和清理? lib应该执行这样的任务:
答案 0 :(得分:3)
将单词转换为规范形式(例如,将动词转换为不定式,将名词转换为单数形式)称为 lemmatization 。一个基于Java的变形器是Standford CoreNLP。
对于“无用的单词”,你可能想要“停用词” - 没有标准列表,但是互联网上有很多浮动,其功能大致相同,唯一的区别在于它们包含多少单词(通常介于100和1000之间)。我以前认识的人使用this list。删除停用词时,请记住在查找匹配时忽略大小写。
答案 1 :(得分:-2)
不确定这是否能满足您的所有需求,但请查看mrsqg。