应用错误收集

Apache Hadoop - 在损坏时排除文件

时间：2011-10-20 18:20:51

标签： hadoop

我处理多个服务器日志文件（大约40个）并使用Apache Hadoop收集一堆指标。如果这些文件中的一个或多个不一致或已损坏，我想排除从这些文件收集的所有指标，但保留其他文件中的指标。

您认为最聪明的方法是什么？

1 个答案:

答案 0 :(得分：0)

加载文件时，请使用标识符来丰富每一行，该标识符指示该行所来自的文件（可能是文件名的散列）。如果您需要保留损坏或不一致的数据（并且只是避免处理它），那么您可以根据该标识符排除行。否则，您可以执行第二次“擦洗”贴图/缩小以消除它们。