如何在处理大量数据集时提高Spark提交作业的性能?

时间:2018-05-31 09:01:37

标签: apache-spark apache-spark-sql spark-streaming

我的HDFS目录上有大约100个文件(以.GZ格式压缩的CSV文件),每个文件都有近100K的记录,而我正在尝试读取记录并分配给df,它正在逐个文件读取并获取更多小时处理这100个文件。 我尝试过不同的方法,例如在纱线模式下提交和增加内存,但是没有一种方法可以提高性能吗?

  --master yarn \
  --deploy-mode client \
  --driver-memory 15G \
  --executor-memory 10G \
  --num-executors 8 \
  --executor-cores 8

有人可以帮我解决这个问题吗?

0 个答案:

没有答案