标签: apache-spark apache-spark-sql spark-streaming databricks
我是Spark的新手,我正尝试从oracle读取表到hdfs Parquet文件farmat ...我的表大约是100GB,我正在使用spark-sql将其读取到dataframe并将该数据帧写入hdfs parquet文件。 但是,当我运行此火花作业时,我看到大约175GB Shuffle Spill(内存)和56GB Shuffle Spill(磁盘)。 我没有执行任何joins / groupBy等操作。为什么我会收到这种随机溢出的消息,如何解决?