应用错误收集

在Spark中读取压缩的xml文件

时间：2016-07-18 10:07:50

标签： scala hadoop apache-spark mapreduce

我有一组大的xml文件，压缩文件和许多这样的zip文件。我之前使用Mapreduce来解析xml，使用自定义inputformat和recordreader设置splittable = false并读取zip和xml文件。

我是Spark的新手。有人可以帮助我如何防止火花分裂zip文件并并行处理多个拉链，就像我在MR中所做的那样。

1 个答案:

答案 0 :(得分：0)

AFAIk！问题的答案由@holden提供here：请看一下！谢谢:)）