我们有一个EMR集群,数据在Hive /仓库(HDFS)中以镶木地板格式存在。我们正在尝试将此数据(> 500万条记录)推送到Oracle RDS。跑完3个小时后,工作就会超时。有时我们也会看到错误的数据节点异常。我们使用df.write.jdbc()命令将数据导出到相同/不同VPC的Oracle DB。需要一些帮助来解决这个问题,我们该如何解决这个问题。我们试图在Oracle端观察sql-trace但是找不到任何错误。
由于数据以镶木地板格式存在,因此数据导出不适用于Sqoop命令。
虽然当我们尝试使用com.databricks.spark.csv
将数据导出到csv(csv format-> df.save()
)文件然后运行s3-distcp
命令时,我们可以导出整个卷数据在~20分钟内。
这方面的任何指示都将受到高度赞赏。
提前致谢!
此致 和Manish