标签: scala hadoop apache-spark mapreduce
我有一组大的xml文件,压缩文件和许多这样的zip文件。我之前使用Mapreduce来解析xml,使用自定义inputformat和recordreader设置splittable = false并读取zip和xml文件。
我是Spark的新手。有人可以帮助我如何防止火花分裂zip文件并并行处理多个拉链,就像我在MR中所做的那样。
答案 0 :(得分:0)
AFAIk!问题的答案由@holden提供here: 请看一下 !谢谢:))