apache-spark - PySpark单元测试方法

PySpark单元测试方法

时间：2016-10-17 21:09:52

标签： apache-spark pyspark

我编写了一个PySpark应用程序，它连接一个包含10个查找表的大表，然后使用df.when子句对该表进行一些转换。为每个查找表定义df并加入它们会占用脚本中的大多数行。我如何对此进行单元测试？对每个查找表和最终表使用sc.parallize并检查转换？你如何通常单独测试火花应用？

1 个答案:

答案 0 :(得分：2)

shuaiyuan的评论很好，您应该使用py.test等现有框架在Python中进行测试。要更直接地回答DataFrames的问题，我建议您不要使用sc.parallelize，而是使用spark.createDataFrame来实例化传递给函数的DataFrame。然后，您可以在输出上调用df.collect()并声明输出中的行数是您所期望的以及列的值。

通用类/方法的单元测试方法
正确的方法来测试类似转换的方法
单位测试方法是坏的吗？
如何进行cakephp的单元测试
小巧的单元测试方法
单元测试;正确的做法？
哪种方法最好单元测试组合代码？
PySpark单元测试方法
我该如何接近或不应该进行单元测试？
更好的功能测试方法

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？