用Partitionby写入期间在Spark中重新分区

时间:2018-08-26 11:08:17

标签: scala apache-spark

我正在使用spark 1.6并尝试使用以下语句编写一个大小为11GB的大型数据框,但这可能是由于2GB +的大分区大小所致

Caused by: java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE


df.write.mode("append").partitionBy("audit_month").parquet("/data/sometable")

在编写时是否有任何变通办法可在内部创建多个分区,但我希望最终结果保持为/ data / sometable / audit_month = 08-2018 /?。

1 个答案:

答案 0 :(得分:0)

这对我有用:

df.write.mode(“ append”)。parquet(“ / data / sometable / audit_month =” + audit_month)