我有一个将数据从oracle传输到hdfs的工作。我需要一种有效的方法来验证此传输,以确保所有行都已正确传输。
答案 0 :(得分:0)
我觉得一种简单的方法是从Source Oracle表中获取行数
select count(*) from tablename;
您将从Oracle表中获取行数
从HDFS的角度来看
计算HDFS文件中的总行数(行):
hadoop fs -cat /yourdestinationhdfsfiles/* | wc -l
数据验证策略
创建一个类似于Oracle表结构
的(Temp)Hive表从Target HDFS文件中取出一些记录并将数据加载到HIVE表中并验证记录和结构是否匹配。[验证的手动过程]
注意:如果您有足够的存储空间和处理单元,也可以对完整数据执行此操作。
希望这有助于!!! ..