将空格分隔文件(eachy row = vector)转换为SequenceFile

时间:2014-08-19 12:52:30

标签: hadoop mahout sequencefile

我创建了大文本文件(4 GB),如下所示。

0 1 2 3 2 1
3 6 2 0 6 4
3 0 6 3 0 0
1 6 7 3 9 4

每行描述一个向量,每列表示向量的每个元素。每个元素由一个空格分隔。

现在,我想使用Apache Mahout为所有向量执行K-Means聚类,但我收到错误"not a SequenceFile"

如何创建格式符合mahout要求的文件?

0 个答案:

没有答案