Apache Mahout中的矢量化

时间:2012-08-13 10:39:01

标签: apache hadoop classification vectorization mahout

我是Mahout的新手。我需要在稍后阶段将文本文件转换为矢量以进行分类。

任何人都可以对以下这些问题有所了解吗?

  1. 如何将文本文件转换为mahout中的向量? 文件格式类似于“用户名|关于项目评级的评论”
  2. 数据将是几TB。那么我可以使用哪个算法实现分类使用我想要创建的向量?
  3. 谢谢, 阿伦

1 个答案:

答案 0 :(得分:2)

您可以查看这两个也有一些/解释如何使用序列文件API的示例。 Herehere

你绝对应该阅读intro文本分析