标签: apache-spark apache-spark-sql
我有一个火花算法,我相信它只能有效地作为一个协同组来实现。目前,通过在我需要合并的两个数据集中执行groupByKey操作,可以实现这些数据集。
这种方法的问题在于,它的效率比在地图端低,因为这意味着为行对象和键分配Java对象。理想情况下,我会在地图侧使用数据框,而仅使用供应商col列进行分组,从而应消除对这种分配的需要,然后切换到cogroup的数据集。
因此,我的问题是,是否有可能在避免出现地图侧额外分配的同时获得协同功能?