标签: java apache-spark apache-spark-sql spark-dataframe
我有数据集
我想根据以下几点过滤这些数据:
1)相同contentId,userId和viewCount的组数据。
2)在videoTime上完成对beforeSeek和seek事件的计算(它们将始终以beforeSeek和seek的形式出现)。因此需要在下一个寻找时间之前减去查询时间。
我正在使用Java和Apache Spark。
所需的OutPut可能看起来像