应用错误收集

我有两个df，df1有5亿行，df2有7000万，df2来自df1.groupByKey(col1).agg(countDistinct(col2))，然后是{{1} }并插入 HBASE使用df3=df1.join(df2,Seq(col),'left')。

我的df3.rdd.map(...).saveAsNewAPIHadoopDataset。

错误信息为spark-submit params are: --num-exectours 12 --exectour-cores 2 --driver-memory 8G --exectour-meory 10G处的...OutOfMermory: Direct buffer Memory。

我不知道如何在Google之后尝试其他方法，因为我的DataFrame太大了？但是我使用saveAsNewAPIHadoopDataset，数据是真实的，是在df3.show上更好的方法

两个Big Spark DataFrame联接并且将SaveAsNewAPIHadoopDataset OOM

0 个答案: