我使用saveAsTextFile方法以文本格式将RDD写入本地文件系统。 在输出目录中,即使对于_SUCCESS文件,每个零件文件也有一个.crc文件。
我只是在寻找Hadoop / Spark的任何内置功能或属性,以避免生成这些元文件(尤其是.crc)
I found following properties以避免为镶木地板文件生成_SUCCESS文件和生成.crc文件,但要查找文本文件的类似属性。
sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")
sc.hadoopConfiguration.set("parquet.enable.summary-metadata", "false")
提前致谢。