我想对Spark进行基准测试,其中包括:
拥有10TB的未压缩数据,其中每一行都采用以下格式:float; float; string。
这项工作基本上会做:
问题是: - 我应该有多少磁盘空间 - 多少记忆力 - 作业的参数是什么(#exec,#core,#mem)和yarn-site.conf
目前我在10个节点上拥有15To存储空间(16个核心,16GB,1.5个存储空间)并且它失败了:
错误client.TransportClient:无法将RPC 6631382768729976966发送到benchophadoopslaves1 / A.B.C.D:43365:java.nio.channels.ClosedChannelException java.nio.channels.ClosedChannelException 17/07/06 17:05:42
WARN netty.NettyRpcEndpointRef:错误发送消息[message = Heartbeat(41,[Lscala.Tuple2; @ 4f4d418,BlockManagerId(41,benchophadoopslaves1,34521))] 3次尝试 java.io.IOException:无法将RPC 6631382768729976966发送到benchophadoopslaves1 / A.B.C.D:4336:java.nio.channels.ClosedChannelException 在org.apache.spark.network.client.TransportClient $ 3.operationComplete(TransportClient.java:239) 在org.apache.spark.network.client.TransportClient $ 3.operationComplete(TransportClient.java:226) 在io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)
答案 0 :(得分:0)
一位朋友给了我一个提示:给司机10GB。它的工作原理