Question

请注意，有一个配置或参数：

dataFrame.write.mode(saveMode).jdbc(url, "tablename", new java.util.Properties())

命令是用Scala编写的，Apache Spark 1.6

它接受一个DataFrame并逐行在PostgreSQL中逐行插入数据。我们需要以批处理模式执行此操作。

任何人都知道是否存在任何配置或其他方式来实现这一目标？

提前致谢

Answer 1

根据文档 - link - 您可以使用batchsize参数批量执行插入

dataFrame
    .write
    .mode(saveMode)
    .option("batchsize", 1000)
    .jdbc(url, "tablename", new java.util.Properties())

现在插入将以1000行的批次进行