标签: java apache-spark apache-spark-sql
在这里火花新手。我正在编写一个Spark 2批处理应用程序,其中包含每日余额文件和每日交易文件。
我需要能够将交易与余额数据集中的相关帐号进行分组。
在那之后,我将需要为每个余额流处理事务(0-N),并基于事务行中的某些条件代码得出总和。
这是我到目前为止的要旨。
caller.length
不确定从这里要去哪里。我想知道是否需要做一个groupBy而不是加入。我该如何根据Spark中的交易代码汇总不同的金额?