标签: nlp weka
我有一组文档,我想将每个文档表示为向量。基本上,对于文档中存在的单词和其他单词(存在于语料库中的其他文档中而不是在此特定文档中),向量将具有1,它将具有0.如何为所有人创建此向量Weka中的文件?
使用Weka有快速的方法吗?我还希望Weka删除停用词,以便在创建此向量之前进行一些预处理。
由于 Abhishek S
答案 0 :(得分:7)
您需要StringToWordVector过滤器。
它有二进制出现和停止等选项,例如词干,截断单词列表,丢弃不常用的术语,大小写折叠。