两个Big Spark DataFrame联接并且将SaveAsNewAPIHadoopDataset OOM

时间:2018-09-05 03:43:41

标签: join apache-spark-sql out-of-memory

我有两个dfdf1有5亿行,df2有7000万,df2来自df1.groupByKey(col1).agg(countDistinct(col2)),然后是{{1} }并插入  HBASE使用df3=df1.join(df2,Seq(col),'left')

我的df3.rdd.map(...).saveAsNewAPIHadoopDataset

错误信息为spark-submit params are: --num-exectours 12 --exectour-cores 2 --driver-memory 8G --exectour-meory 10G处的...OutOfMermory: Direct buffer Memory

我不知道如何在Google之后尝试其他方法,因为我的DataFrame太大了?但是我使用saveAsNewAPIHadoopDataset,数据是真实的,是在df3.show上更好的方法

0 个答案:

没有答案