流媒体Kmeans Mahout一个文件输出

时间:2014-11-19 16:43:43

标签: hadoop mahout

我正在运行Mahout Streaming K意味着群集上的算法,而我只获得一个文件作为输出。

我是Mahoot / Hadoop的新手,但是如果我理解的话应该有多个文件,因为作业是在多个节点上分开的。 如果我理解为什么在我的情况下不是这样呢?

可能是因为我的数据太少所以处理是在一台机器上完成的,或者我在运行作业时弄乱了一些东西(Hadoop的路径或类似的东西),这就是为什么它运行在一台机器上?

1 个答案:

答案 0 :(得分:0)

Hadoop管理数据分块(即:将文件分成多个文件)。

这意味着从您的角度(即从HDFS),有一个文件。但是,对于datanodes文件系统,有很多。