在pyspark中为架构创建一个单独的类

时间:2019-04-12 03:03:09

标签: apache-spark pyspark

我正在查看为pyspark中的架构创建单独的类是否有任何价值(类似于传统MVC架构中的模型)。

管道中有很多中间结果,而且我对如何对它们都不进行类型检查有些偏执。因此,步骤1、2、3 ..等的输出已存储在磁盘中,但是在spark.write时,实际上都没有检查它们(我假设spark实际上会在以下情况下引发错误:它无法写入磁盘)。

是否完全有必要对pyspark进行类型检查,如果是,那么处理它的最佳方法是什么?

0 个答案:

没有答案