我想运行增量夜间工作,从Oracle DataWarehouse中提取100 GB的数据到HDFS。处理完成后,需要将结果(几GB)导出回Oracle。
我们在亚马逊AWS中运行Hadoop,我们的数据仓库在内部。 AWS与内部之间的数据链接为100 mbps且不可靠。
如果我使用Sqoop-import从Oracle获取数据,并且网络出现间歇性中断,Sqoop如何处理这个问题? 此外,如果我导入(或导出)70%的数据会发生什么,而在剩下的30%中,网络会出现故障?
由于默认Sqoop使用JDBC,数据传输如何在网络级别进行?我们可以压缩传输中的数据吗?