请注意,有一个配置或参数:
dataFrame.write.mode(saveMode).jdbc(url, "tablename", new java.util.Properties())
命令是用Scala编写的,Apache Spark 1.6
它接受一个DataFrame并逐行在PostgreSQL中逐行插入数据。我们需要以批处理模式执行此操作。
任何人都知道是否存在任何配置或其他方式来实现这一目标?
提前致谢
答案 0 :(得分:3)
根据文档 - link - 您可以使用batchsize
参数批量执行插入
dataFrame
.write
.mode(saveMode)
.option("batchsize", 1000)
.jdbc(url, "tablename", new java.util.Properties())
现在插入将以1000行的批次进行