使用Apache Spark 1.6在PostgreSQL 9.6上以批处理模式插入

时间:2017-07-04 16:40:24

标签: apache-spark dataframe apache-spark-sql

请注意,有一个配置或参数:

dataFrame.write.mode(saveMode).jdbc(url, "tablename", new java.util.Properties())

命令是用Scala编写的,Apache Spark 1.6

它接受一个DataFrame并逐行在PostgreSQL中逐行插入数据。我们需要以批处理模式执行此操作。

任何人都知道是否存在任何配置或其他方式来实现这一目标?

提前致谢

1 个答案:

答案 0 :(得分:3)

根据文档 - link - 您可以使用batchsize参数批量执行插入

dataFrame
    .write
    .mode(saveMode)
    .option("batchsize", 1000)
    .jdbc(url, "tablename", new java.util.Properties())

现在插入将以1000行的批次进行