标签: apache-spark
我有一个ETL工作,将Avro文件转换为Hive镶木桌。
启用压缩(snappy或gzip)后,任务将因OOM错误而失败。
我映射我的Avro记录并使用返回的数据框插入到Hive表中,如下所示
df.write.insertInto("default.results_parquet", overwrite=False)
启用压缩时是否应该注意任何特殊设置或事项?