我需要将大型Spark数据帧写入SQL Server。
这是一个批处理作业,每天使用Spark 1.6.1和Python 2.7运行一次。
选项:
- 追加::如果作业失败(由于数据类型被截断,连接问题等),则最终将部分数据写入SQL Server(不是原子数据)。
- 覆盖::表正在删除和创建,而不是被截断(所有数据类型最终都以文本形式出现在SQL Server目标表中)
- pandas :如果我将Spark数据框架转换为pandas数据框架,则可以实现原子性,但它不可扩展
有人可以建议最好的方法(不使用暂存表)吗?