使用spark从emr推送5亿条记录到oracle db

时间:2017-08-29 11:30:26

标签: oracle apache-spark hdfs emr parquet

我们有一个EMR集群,数据在Hive /仓库(HDFS)中以镶木地板格式存在。我们正在尝试将此数据(> 500万条记录)推送到Oracle RDS。跑完3个小时后,工作就会超时。有时我们也会看到错误的数据节点异常。我们使用df.write.jdbc()命令将数据导出到相同/不同VPC的Oracle DB。需要一些帮助来解决这个问题,我们该如何解决这个问题。我们试图在Oracle端观察sql-trace但是找不到任何错误。

由于数据以镶木地板格式存在,因此数据导出不适用于Sqoop命令。

虽然当我们尝试使用com.databricks.spark.csv将数据导出到csv(csv format-> df.save())文件然后运行s3-distcp命令时,我们可以导出整个卷数据在~20分钟内。

这方面的任何指示都将受到高度赞赏。

提前致谢!

此致 和Manish

0 个答案:

没有答案