在生产Spark作业中引入Spark show()方法是一个好习惯吗?

时间:2018-12-03 12:38:11

标签: apache-spark dataframe apache-spark-sql mining

使用DataFrame.show() API,我们可以浏览一下基础数据。

在生产火花作业中使用此方法是否很好?

基本上,我知道我们可以在开始工作之前就对这种代码进行注释,但是如果我们只保留它,这是一个好习惯吗?
否则会导致性能问题?

2 个答案:

答案 0 :(得分:4)

show()命令是action

在代码中添加不必要的操作可能会干扰Spark优化器,因为优化器可以更改转换顺序,但每次执行操作时都应触发操作。
即,使用不必要的操作会限制优化器的工作。

请参见Actions vs Transformations

答案 1 :(得分:0)

show() 命令是一个动作,所以我们不应该在我们的生产代码中使用它,因为它会不必要地实现你的代码并最终在一定程度上减慢你的工作。