在数据集中的特定字段上使用FILTER语句时,不确定为什么pig latin会在没有程序员意图的情况下自动删除空记录。更多的解释更为重要。
答案 0 :(得分:0)
Pig一般省略空值,使得处理损坏的数据有点痛苦。
Pig会对无效字段(null)发出警告,但不会停止其处理
在Hadoop中说 - 汤姆怀特的权威指南。
处理此类问题的方法是使用某些代码(如999)替换缺失值,或者按质量和质量分割数据,然后查看正在发生的事情。
我们通常通过计算管道数据聚合的各个步骤上的缺失值来进行数据质量检查。