鉴于我有一套培训文本文档和一组测试文本文档。两套非常大,所以使用weka不是一个好选择,因为它花费了很多时间。因此,我使用mahout--一个可扩展的机器学习和数据挖掘框架(http://mahout.apache.org/)。 接下来,我使用mahout将训练文档转换为mahout向量(set ngram = 1)。这里我有一个mahout向量表示训练文档,其中每个向量的大小是属性或特征的数量,并且该向量中的每个数字是训练文档中单词的频率(使用tf而不是tf-idf)。 是否有人知道如何根据我之前在mahout中构建的培训数据的功能或属性来转换测试文档?
答案 0 :(得分:0)
"转换"你所指的实际上是一个"预测" ..不是吗?鉴于您已经训练过数据 - 可能您有一个可用于分类的模型。
您可以在此处使用mahout的命令行工具:
http://mahout.apache.org/users/basics/creating-vectors-from-text.html