Apache Spark根据条件使用Java组行并进行计算

时间:2017-06-14 10:47:41

标签: java apache-spark apache-spark-sql spark-dataframe

我有数据集

enter image description here

我想根据以下几点过滤这些数据:

1)相同contentId,userId和viewCount的组数据。

2)在videoTime上完成对beforeSeek和seek事件的计算(它们将始终以beforeSeek和seek的形式出现)。因此需要在下一个寻找时间之前减去查询时间。

我正在使用Java和Apache Spark。

所需的OutPut可能看起来像

enter image description here

0 个答案:

没有答案