我正在运行Mahout Streaming K意味着群集上的算法,而我只获得一个文件作为输出。
我是Mahoot / Hadoop的新手,但是如果我理解的话应该有多个文件,因为作业是在多个节点上分开的。 如果我理解为什么在我的情况下不是这样呢?
可能是因为我的数据太少所以处理是在一台机器上完成的,或者我在运行作业时弄乱了一些东西(Hadoop的路径或类似的东西),这就是为什么它运行在一台机器上?
答案 0 :(得分:0)
Hadoop管理数据分块(即:将文件分成多个文件)。
这意味着从您的角度(即从HDFS),有一个文件。但是,对于datanodes文件系统,有很多。