标签: apache-spark dataframe testing
我需要以下两个问题的帮助 1。在Spark Dataframe中是更好的分区还是更好地使用窗口函数来分配大型集合并执行复杂的聚合? 2 我们如何对火花进行单元测试?即我想要一个比较器程序来验证我的sql查询结果(不是spark sql)与spark数据帧结果 ,以及两者的时间。