单词到词干的映射(词典)

时间:2014-06-04 06:10:44

标签: java nlp rapidminer stemming

我想为我的项目生成一个(词干词)的映射。

我正在尝试以这种方式生成映射

1.i接受了一个文本(在文件1中),使用快速挖掘器来阻止所有单词并将结果文本保存在另一个文件中,如文件2中。

2.i编写了一个java程序,它将file1和file 2作为参数,从file1扫描一个单词,从file2扫描一个单词,并将它们作为一对存储在HAshset中。

这种方法能完美运作吗?还有其他更好的方法来完成这项任务。

1 个答案:

答案 0 :(得分:0)

我再次回答我的问题..

是的,这种方法有效,但要确保删除所有标点符号,/,&,#,数字,撇号和除字母之外的所有内容。

只有那时映射才会完美