将数据帧写入hdfs实木复合地板文件时,如何解决随机播放溢出问题?

时间:2018-12-26 15:36:37

标签: apache-spark apache-spark-sql spark-streaming databricks

我是Spark的新手,我正尝试从oracle读取表到hdfs Parquet文件farmat ...我的表大约是100GB,我正在使用spark-sql将其读取到dataframe并将该数据帧写入hdfs parquet文件。 但是,当我运行此火花作业时,我看到大约175GB Shuffle Spill(内存)和56GB Shuffle Spill(磁盘)。 我没有执行任何joins / groupBy等操作。为什么我会收到这种随机溢出的消息,如何解决?

0 个答案:

没有答案