我有两个df
,df1
有5亿行,df2
有7000万,df2
来自df1.groupByKey(col1).agg(countDistinct(col2))
,然后是{{1} }并插入
HBASE使用df3=df1.join(df2,Seq(col),'left')
。
我的df3.rdd.map(...).saveAsNewAPIHadoopDataset
。
错误信息为spark-submit params are: --num-exectours 12 --exectour-cores 2 --driver-memory 8G --exectour-meory 10G
处的...OutOfMermory: Direct buffer Memory
。
我不知道如何在Google之后尝试其他方法,因为我的DataFrame太大了?但是我使用saveAsNewAPIHadoopDataset
,数据是真实的,是在df3.show
上更好的方法