从Spark到MySQL的JDBC写入速度低

时间:2016-04-28 10:49:46

标签: apache-spark pyspark

我需要从Spark一个DataFrame写入大约100万行到MySQL但是插入太慢了。我怎样才能改进它?

以下代码:

df = sqlContext.createDataFrame(rdd, schema)
df.write.jdbc(url='xx', table='xx', mode='overwrite')

1 个答案:

答案 0 :(得分:11)

https://stackoverflow.com/a/10617768/3318517中的答案对我有用。将rewriteBatchedStatements=true添加到连接URL。 (见Configuration Properties for Connector/J。)

我的基准测试从3325秒变为42秒!