标签: mapreduce hive bigdata
当我们使用配置单元或处理数据加载数据时,有没有办法确定坏记录。
场景就是这样。 假设我有一个文件需要使用hive加载为表,其中有一百万条记录。由一些' |'划分。符号。
所以假设经过50万次记录处理后我遇到了问题。无论如何都要调试它或精确查明有问题的记录/记录。
如果您不清楚我的问题,请告诉我。 我知道mapreduce有一个不良记录的跳过(百分比种类)。我想从蜂巢的角度来看这个。
提前致谢。