我正在将一个大型数据帧写入mysql数据库(AWS RDS上的Aurora)。
我正在做大致如下(伪代码)
rdd1 = sc.textFile("/some/dir")
rdd2 = rdd.map(addSchema)
df = sqlContext.createDataFrame(rdd2)
df.write.jdbc(url="...", table="mydb.table", mode="append")
数据框大约有650,000个元素,有时(是的,有时只有)在插入过程中死亡,或者至少我认为这就是正在发生的事情。
在stderr
中,底部有一条线说应用程序正在退出状态1,错误。但除了最后一点之外,没有任何错误。
这是否是一种将大量数据写入mysql数据库的不可靠方法?如何在没有频繁死亡的情况下将我的大型数据帧保存到mysql数据库?
编辑: spark 2.0,emr 5.0