oracle - 使用spark从emr推送5亿条记录到oracle db

我们有一个EMR集群，数据在Hive /仓库（HDFS）中以镶木地板格式存在。我们正在尝试将此数据（> 500万条记录）推送到Oracle RDS。跑完3个小时后，工作就会超时。有时我们也会看到错误的数据节点异常。我们使用df.write.jdbc（）命令将数据导出到相同/不同VPC的Oracle DB。需要一些帮助来解决这个问题，我们该如何解决这个问题。我们试图在Oracle端观察sql-trace但是找不到任何错误。

由于数据以镶木地板格式存在，因此数据导出不适用于Sqoop命令。

虽然当我们尝试使用com.databricks.spark.csv将数据导出到csv（csv format-＆gt; df.save()）文件然后运行s3-distcp命令时，我们可以导出整个卷数据在~20分钟内。

这方面的任何指示都将受到高度赞赏。

提前致谢！

此致和Manish

使用spark从emr推送5亿条记录到oracle db

0 个答案: