Question

我正在使用spark 1.6并尝试使用以下语句编写一个大小为11GB的大型数据框，但这可能是由于2GB +的大分区大小所致

Caused by: java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE


df.write.mode("append").partitionBy("audit_month").parquet("/data/sometable")

在编写时是否有任何变通办法可在内部创建多个分区，但我希望最终结果保持为/ data / sometable / audit_month = 08-2018 /？。

Answer 1

这对我有用：

df.write.mode（“ append”）。parquet（“ / data / sometable / audit_month =” + audit_month）

用Partitionby写入期间在Spark中重新分区

1 个答案: