在Spark中读取压缩的xml文件

时间:2016-07-18 10:07:50

标签: scala hadoop apache-spark mapreduce

我有一组大的xml文件,压缩文件和许多这样的zip文件。我之前使用Mapreduce来解析xml,使用自定义inputformat和recordreader设置splittable = false并读取zip和xml文件。

我是Spark的新手。有人可以帮助我如何防止火花分裂zip文件并并行处理多个拉链,就像我在MR中所做的那样。

1 个答案:

答案 0 :(得分:0)

AFAIk!问题的答案由@holden提供here: 请看一下 !谢谢:))