我建立了一个由十台机器组成的集群,我在其中安装了CDH4(纱线)。 我在同一节点中运行nameNode,resourceManger和historyServer,在另一个节点中运行客户端。
在其余的机器上,我打开了dataNode和NodeManager。 我在一个100GB的文件上启动了我的应用程序,它首先工作并且它相对较快,但现在它在地图结束时变得非常慢(大约90%100%需要30分钟)。
我不知道问题是来自我编写程序的方式还是我配置cloudera CDH4的方式。 问题是它有时有效,但在其他时候不起作用,尽管我没有改变任何东西。
答案 0 :(得分:0)
我发现为什么最后花了这么多时间,事实上我认为命令hadoop fs -expunge允许我清空垃圾但它没有,所以当Hadoop试图写入HDFS文件时结果很慢,因为剩下的空间非常小。