应用错误收集

我想对Spark进行基准测试，其中包括：

拥有10TB的未压缩数据，其中每一行都采用以下格式：float; float; string。

这项工作基本上会做：

在要拆分的行上映射
过滤字符串
reduceByKey其中key基于两个浮点数。
将结果存储在HDFS中

问题是： - 我应该有多少磁盘空间 - 多少记忆力 - 作业的参数是什么（＃exec，＃core，＃mem）和yarn-site.conf

目前我在10个节点上拥有15To存储空间（16个核心，16GB，1.5个存储空间）并且它失败了：

错误client.TransportClient：无法将RPC 6631382768729976966发送到benchophadoopslaves1 / A.B.C.D：43365：java.nio.channels.ClosedChannelException   java.nio.channels.ClosedChannelException   17/07/06 17:05:42

WARN netty.NettyRpcEndpointRef：错误发送消息[message = Heartbeat（41，[Lscala.Tuple2; @ 4f4d418，BlockManagerId（41，benchophadoopslaves1,34521））] 3次尝试   java.io.IOException：无法将RPC 6631382768729976966发送到benchophadoopslaves1 / A.B.C.D:4336:java.nio.channels.ClosedChannelException           在org.apache.spark.network.client.TransportClient $ 3.operationComplete（TransportClient.java:239）           在org.apache.spark.network.client.TransportClient $ 3.operationComplete（TransportClient.java:226）           在io.netty.util.concurrent.DefaultPromise.notifyListener0（DefaultPromise.java:680）

Spark基准设置

1 个答案: