我正在使用spark 1.6并尝试使用以下语句编写一个大小为11GB的大型数据框,但这可能是由于2GB +的大分区大小所致
Caused by: java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
df.write.mode("append").partitionBy("audit_month").parquet("/data/sometable")
在编写时是否有任何变通办法可在内部创建多个分区,但我希望最终结果保持为/ data / sometable / audit_month = 08-2018 /?。
答案 0 :(得分:0)
这对我有用:
df.write.mode(“ append”)。parquet(“ / data / sometable / audit_month =” + audit_month)