应用错误收集

对于原始日志，建议使用像SequenceFileFormat这样的容器文件格式，它支持压缩和拆分。要使用此格式存储日志，您必须选择时间戳作为键，并记录行作为值。在我们的团队中，我们广泛使用SequenceFiles。

对于可拆分LZO，您需要预处理文件以生成索引。如果没有索引，MapReduce框架将整个文件作为单个拆分（一个映射器）处理，处理效率低下。

In＆＃34; Hadoop The Definitive Guide＆＃34;本书（我建议你阅读＆＃34;压缩＆＃34;），有一节建议使用压缩格式。根据建议，以下是从最有效到最不有效的选择：