应用错误收集

将数据帧写入hdfs实木复合地板文件时，如何解决随机播放溢出问题？

时间：2018-12-26 15:36:37

标签： apache-spark apache-spark-sql spark-streaming databricks

我是Spark的新手，我正尝试从oracle读取表到hdfs Parquet文件farmat ...我的表大约是100GB，我正在使用spark-sql将其读取到dataframe并将该数据帧写入hdfs parquet文件。但是，当我运行此火花作业时，我看到大约175GB Shuffle Spill（内存）和56GB Shuffle Spill（磁盘）。我没有执行任何joins / groupBy等操作。为什么我会收到这种随机溢出的消息，如何解决？

0 个答案:

没有答案

将自定义Java对象编写到Parquet
如何将文件写入问题修复到文档目录中？
如何使用linux或hdfs命令将多个镶木地板文件合并到单个镶木地板文件？
apache-spark - 从Spark DataFrame
编写镶木地板文件时发出
用Python将Parquet写入HDFS
Spark如何编写压缩的实木复合地板文件？
将数据帧写入hdfs实木复合地板文件时，如何解决随机播放溢出问题？
使用pandas.DataFrame将镶木地板文件写入CSV文件时，如何防止表格格式？
为什么将spark数据帧写入拼花格式会导致读取乱序？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？