如何使用Weka创建一个单词包?

时间:2011-10-10 07:26:53

标签: nlp weka

我有一组文档,我想将每个文档表示为向量。基本上,对于文档中存在的单词和其他单词(存在于语料库中的其他文档中而不是在此特定文档中),向量将具有1,它将具有0.如何为所有人创建此向量Weka中的文件?

使用Weka有快速的方法吗?我还希望Weka删除停用词,以便在创建此向量之前进行一些预处理。

由于 Abhishek S

1 个答案:

答案 0 :(得分:7)

您需要StringToWordVector过滤器。

它有二进制出现和停止等选项,例如词干,截断单词列表,丢弃不常用的术语,大小写折叠。