我需要从Spark一个DataFrame写入大约100万行到MySQL但是插入太慢了。我怎样才能改进它?
以下代码:
df = sqlContext.createDataFrame(rdd, schema)
df.write.jdbc(url='xx', table='xx', mode='overwrite')
答案 0 :(得分:11)
https://stackoverflow.com/a/10617768/3318517中的答案对我有用。将rewriteBatchedStatements=true
添加到连接URL。 (见Configuration Properties for Connector/J。)
我的基准测试从3325秒变为42秒!