标签: scala apache-spark
我的HDFS目录中有一些文件,我想用Spark处理它们,但是当我的进程遇到损坏的.gz文件时,我看到的真正问题是,当有一个损坏的.gz文件需要花费数小时时间完成该运行。有人可以告诉你如何解决这个问题
一旦解决方案,我知道不要复制损坏的gz或将所有未损坏的文件移动到不同的位置并使我的工作指向该Dir,但我想知道可以火花可以处理这些情况。