Spark:将大型数据帧写入mysql通常会失败

时间:2016-10-04 03:27:25

标签: apache-spark pyspark emr

我正在将一个大型数据帧写入mysql数据库(AWS RDS上的Aurora)。

我正在做大致如下(伪代码)

rdd1 = sc.textFile("/some/dir")
rdd2 = rdd.map(addSchema)
df = sqlContext.createDataFrame(rdd2)
df.write.jdbc(url="...", table="mydb.table", mode="append")

数据框大约有650,000个元素,有时(是的,有时只有)在插入过程中死亡,或者至少我认为这就是正在发生的事情。

stderr中,底部有一条线说应用程序正在退出状态1,错误。但除了最后一点之外,没有任何错误。

这是否是一种将大量数据写入mysql数据库的不可靠方法?如何在没有频繁死亡的情况下将我的大型数据帧保存到mysql数据库?

编辑: spark 2.0,emr 5.0

0 个答案:

没有答案