应用错误收集

BZIP2 可以在hadoop中拆分 - 它提供了非常好的压缩比，但是从CPU时间和性能来看并不能提供最佳结果，因为压缩非常耗费CPU。

LZO 可以在hadoop中拆分 - 利用 hadoop-lzo 您可以拆分压缩的LZO文件。您需要具有外部.lzo.index文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4 可以在hadoop中拆分 - 利用 hadoop-4mc 您可以拆分压缩的4mc文件。您不需要任何外部索引，并且您可以使用提供的命令行工具或Java / C代码，内部/外部hadoop生成存档。 4mc可在任何速度/压缩比级别的hadoop LZ4上使用：从快速模式达到500 MB / s压缩速度到高/超模式，提供更高的压缩比，几乎可与GZIP相媲美。

ZSTD （z标准）现在可以通过利用 hadoop-4mc 在hadoop / Spark / Flink中进行拆分。

请查看Hadoop Elephant Bird来处理您工作中的复杂输入。无论如何 XML 在EB或hadoop，AFAIK中无法原生拆分。

Hadoop拆分方法

1 个答案: