mahout分类文本输入矢量化

时间:2012-09-04 09:32:29

标签: mahout

我正在尝试用mahout构建一个分类器。建立模型后。 我必须"饲料"目标文件到模型并获得分类结果。

我检查了mahout源代码中的测试用例,它使用具有固定数量字段的DenseVector。 但是,我使用mahout对文本文档进行分类,输入是一些字符串(或包含字符串的数组)。如何将其转换为有效的" Vector"实例

我尝试了StaticWordEncoder和RandomAccessSparseVector,但结果不正确。无法弄清楚为什么。有点绝望。

1 个答案:

答案 0 :(得分:0)

您必须将文档解析为单词并从中填充向量。

我建议您阅读Mahout In Action之类的内容,以便在尝试之前获得更多背景信息。