如何管理Spark中长时间运行的管道的可重启性?

时间:2018-11-19 05:45:57

标签: apache-spark

我有一个包含多个数据帧的数据管道,读取几个数据帧后发生了某些事情(火花驱动程序故障或任何问题),当我们重新启动管道时,肯定会再次产生火花并读取与之前相同的数据帧在问题发生之前已经阅读。有什么方法可以避免重启后读取相同的数据帧?

0 个答案:

没有答案