目前,我正在创建使用java Spark API中的一些数据集的类。这些数据集使用spark.sql()方法从hive表中填充。
因此,在执行一些sql操作(如连接)之后,我有一个最终的数据集。
现在,我正在努力研究如何为这些类编写单元测试用例。我可以提供该类的一个方法的以下示例:
public Dataset<Row> loadDataSetA() {
final SparkSession sc; // This has been initialized in another class
final Dataset<Row> dataSetA = sc.sql("QUERY")
.where(upper(col(COL_A)).isin(TYPES));
final Dataset<Row> dataSetAFinal = dataSetA.select(col(COL_A));
return dataSetAFinal;
}
我想知道是否有一个框架或任何我可以参考的例子来为这些方法和类编写好的测试用例。
此致