应用错误收集

将Spark数据框架写入SQL Server（原子事务）？

时间：2018-12-13 00:28:52

标签： python sql-server apache-spark

我需要将大型Spark数据帧写入SQL Server。这是一个批处理作业，每天使用Spark 1.6.1和Python 2.7运行一次。

选项：

追加：：如果作业失败（由于数据类型被截断，连接问题等），则最终将部分数据写入SQL Server（不是原子数据）。
覆盖：：表正在删除和创建，而不是被截断（所有数据类型最终都以文本形式出现在SQL Server目标表中）
pandas ：如果我将Spark数据框架转换为pandas数据框架，则可以实现原子性，但它不可扩展

有人可以建议最好的方法（不使用暂存表）吗？

0 个答案:

没有答案