如何验证从外部数据库(oracle)到hdfs的数据传输

时间:2018-06-11 05:43:51

标签: oracle hadoop hdfs sqoop

我有一个将数据从oracle传输到hdfs的工作。我需要一种有效的方法来验证此传输,以确保所有行都已正确传输。

1 个答案:

答案 0 :(得分:0)

我觉得一种简单的方法是从Source Oracle表中获取行数

 select count(*) from tablename;

您将从Oracle表中获取行数

从HDFS的角度来看

计算HDFS文件中的总行数(行):

 hadoop fs -cat /yourdestinationhdfsfiles/* | wc -l

数据验证策略

创建一个类似于Oracle表结构

的(Temp)Hive表

从Target HDFS文件中取出一些记录并将数据加载到HIVE表中并验证记录和结构是否匹配。[验证的手动过程]

注意:如果您有足够的存储空间和处理单元,也可以对完整数据执行此操作。

希望这有助于!!! ..