PySpark单元测试方法

时间:2016-10-17 21:09:52

标签: apache-spark pyspark

我编写了一个PySpark应用程序,它连接一个包含10个查找表的大表,然后使用df.when子句对该表进行一些转换。为每个查找表定义df并加入它们会占用脚本中的大多数行。我如何对此进行单元测试?对每个查找表和最终表使用sc.parallize并检查转换?你如何通常单独测试火花应用?

1 个答案:

答案 0 :(得分:2)

shuaiyuan的评论很好,您应该使用py.test等现有框架在Python中进行测试。要更直接地回答DataFrames的问题,我建议您不要使用sc.parallelize,而是使用spark.createDataFrame来实例化传递给函数的DataFrame。然后,您可以在输出上调用df.collect()并声明输出中的行数是您所期望的以及列的值。