标签: hadoop
我处理多个服务器日志文件(大约40个)并使用Apache Hadoop收集一堆指标。如果这些文件中的一个或多个不一致或已损坏,我想排除从这些文件收集的所有指标,但保留其他文件中的指标。
您认为最聪明的方法是什么?
答案 0 :(得分:0)
加载文件时,请使用标识符来丰富每一行,该标识符指示该行所来自的文件(可能是文件名的散列)。如果您需要保留损坏或不一致的数据(并且只是避免处理它),那么您可以根据该标识符排除行。否则,您可以执行第二次“擦洗”贴图/缩小以消除它们。