Sqoop导入验证

时间:2017-04-26 15:29:37

标签: sqoop sqoop2

在使用sqoop将数据从源系统(Postgres,oracle,sqlserver)导入hdfs后,有没有人可以帮助我理解。您执行的检查是什么,以查看是否正确导入所有数据而没有任何差异。如何确保导入的数据不是重复数据。您执行的其他检查有哪些?

1 个答案:

答案 0 :(得分:0)

对于导入后的自动数据质量检查,您可以检查例如

  1. 使用hdfs(hive)中的sqoop eval = count计算加载的分区。这是作为ETL过程的最后一步执行的最简单和有用的。此检查显示所有数据最有可能已加载且没有重复。

  2. 在hive中使用sqoop eval = sum求和一些列。也用于加载分区。此检查显示,某些概率数据已正确加载且列按顺序排列(未混乱)。

  3. 一次应用少量此类检查会增加发现数据加载错误的可能性。

    当然,使用简单快速的查询很难涵盖所有可能的负载错误。但是对于自动数据质量检查来说已经足够了。