我编写了一个PySpark应用程序,它连接一个包含10个查找表的大表,然后使用df.when子句对该表进行一些转换。为每个查找表定义df并加入它们会占用脚本中的大多数行。我如何对此进行单元测试?对每个查找表和最终表使用sc.parallize并检查转换?你如何通常单独测试火花应用?
答案 0 :(得分:2)
sc.parallelize
,而是使用spark.createDataFrame
来实例化传递给函数的DataFrame。然后,您可以在输出上调用df.collect()
并声明输出中的行数是您所期望的以及列的值。