您好我正在使用Spark on Java处理二进制文件。 我知道如果文件的扩展名为“.gz”,则应自动解压缩文本文件(sc.textFile(path))。
是否有任何类似的自动解压缩二进制数据的方法?我应该设置一些我可能需要的选项吗? 我尝试了这段代码,似乎不会发生自动解压缩。
JavaSparkContext sc = new JavaSparkContext(sparkConf);
String inputFolder = args[0];
JavaPairRDD<String, PortableDataStream> binaryFiles = sc.binaryFiles(inputFolder);