java - 根据条件代码汇总两个数据集的金额值

在这里火花新手。我正在编写一个Spark 2批处理应用程序，其中包含每日余额文件和每日交易文件。

我需要能够将交易与余额数据集中的相关帐号进行分组。

在那之后，我将需要为每个余额流处理事务（0-N），并基于事务行中的某些条件代码得出总和。

这是我到目前为止的要旨。

caller.length

不确定从这里要去哪里。我想知道是否需要做一个groupBy而不是加入。我该如何根据Spark中的交易代码汇总不同的金额？