答案 0 :(得分:0)
对于导入后的自动数据质量检查,您可以检查例如
使用hdfs(hive)中的sqoop eval = count计算加载的分区。这是作为ETL过程的最后一步执行的最简单和有用的。此检查显示所有数据最有可能已加载且没有重复。
在hive中使用sqoop eval = sum求和一些列。也用于加载分区。此检查显示,某些概率数据已正确加载且列按顺序排列(未混乱)。
一次应用少量此类检查会增加发现数据加载错误的可能性。
当然,使用简单快速的查询很难涵盖所有可能的负载错误。但是对于自动数据质量检查来说已经足够了。