我有近40,000个文本文件(平均大小大于1KB)用于自然语言处理。我想用Java将一些通用预处理函数应用于所有这些文件。这些功能包括将所有字符转换为小写,删除所有标点符号,删除所有数字,删除重复的空格(tabspace),删除所有预定义的停用词,最后,将生成的文件存储在磁盘上。
任何人都可以推荐一些有效的Java库来完成这类工作。非常感谢!
答案 0 :(得分:1)
Mallet是一个Java机器学习库,也可以进行初始文本处理:http://mallet.cs.umass.edu/import.php。
输出可能需要采用Mallet的数据格式,但这种格式设计得很好。