应用错误收集

流媒体Kmeans Mahout一个文件输出

时间：2014-11-19 16:43:43

标签： hadoop mahout

我正在运行Mahout Streaming K意味着群集上的算法，而我只获得一个文件作为输出。

我是Mahoot / Hadoop的新手，但是如果我理解的话应该有多个文件，因为作业是在多个节点上分开的。如果我理解为什么在我的情况下不是这样呢？

可能是因为我的数据太少所以处理是在一台机器上完成的，或者我在运行作业时弄乱了一些东西（Hadoop的路径或类似的东西），这就是为什么它运行在一台机器上？

1 个答案:

答案 0 :(得分：0)

Hadoop管理数据分块（即：将文件分成多个文件）。

这意味着从您的角度（即从HDFS），有一个文件。但是，对于datanodes文件系统，有很多。