将Spark数据框架写入SQL Server(原子事务)?

时间:2018-12-13 00:28:52

标签: python sql-server apache-spark

我需要将大型Spark数据帧写入SQL Server。 这是一个批处理作业,每天使用Spark 1.6.1和Python 2.7运行一次。

选项:

  1. 追加::如果作业失败(由于数据类型被截断,连接问题等),则最终将部分数据写入SQL Server(不是原子数据)。
  2. 覆盖::表正在删除和创建,而不是被截断(所有数据类型最终都以文本形式出现在SQL Server目标表中)
  3. pandas :如果我将Spark数据框架转换为pandas数据框架,则可以实现原子性,但它不可扩展

有人可以建议最好的方法(不使用暂存表)吗?

0 个答案:

没有答案