应用错误收集

如何在Spark或Scala中检查文件是否是有效的gz

时间：2018-06-04 17:50:50

标签： scala apache-spark

我的HDFS目录中有一些文件，我想用Spark处理它们，但是当我的进程遇到损坏的.gz文件时，我看到的真正问题是，当有一个损坏的.gz文件需要花费数小时时间完成该运行。有人可以告诉你如何解决这个问题

一旦解决方案，我知道不要复制损坏的gz或将所有未损坏的文件移动到不同的位置并使我的工作指向该Dir，但我想知道可以火花可以处理这些情况。

0 个答案:

没有答案