Apache Hadoop - 在损坏时排除文件

时间:2011-10-20 18:20:51

标签: hadoop

我处理多个服务器日志文件(大约40个)并使用Apache Hadoop收集一堆指标。如果这些文件中的一个或多个不一致或已损坏,我想排除从这些文件收集的所有指标,但保留其他文件中的指标。

您认为最聪明的方法是什么?

1 个答案:

答案 0 :(得分:0)

加载文件时,请使用标识符来丰富每一行,该标识符指示该行所来自的文件(可能是文件名的散列)。如果您需要保留损坏或不一致的数据(并且只是避免处理它),那么您可以根据该标识符排除行。否则,您可以执行第二次“擦洗”贴图/缩小以消除它们。