Java文本预处理和清理

时间:2012-11-03 16:19:48

标签: text-processing java

请您推荐我使用java库进行文本预处理和清理? lib应该执行这样的任务:

  • 将所有动词转换为不定式
  • 将所有名词转换为单数形式
  • 删除无用的(用于文本感)单词

2 个答案:

答案 0 :(得分:3)

将单词转换为规范形式(例如,将动词转换为不定式,将名词转换为单数形式)称为 lemmatization 。一个基于Java的变形器是Standford CoreNLP

对于“无用的单词”,你可能想要“停用词” - 没有标准列表,但是互联网上有很多浮动,其功能大致相同,唯一的区别在于它们包含多少单词(通常介于100和1000之间)。我以前认识的人使用this list。删除停用词时,请记住在查找匹配时忽略大小写。

答案 1 :(得分:-2)

不确定这是否能满足您的所有需求,但请查看mrsqg。

http://code.google.com/p/mrsqg/