如何在Spark或Scala中检查文件是否是有效的gz

时间:2018-06-04 17:50:50

标签: scala apache-spark

我的HDFS目录中有一些文件,我想用Spark处理它们,但是当我的进程遇到损坏的.gz文件时,我看到的真正问题是,当有一个损坏的.gz文件需要花费数小时时间完成该运行。有人可以告诉你如何解决这个问题

一旦解决方案,我知道不要复制损坏的gz或将所有未损坏的文件移动到不同的位置并使我的工作指向该Dir,但我想知道可以火花可以处理这些情况。

0 个答案:

没有答案