我正在通过使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中,每个零件文件都有一个.crc文件。
我正在寻找可避免生成这些.crc文件的Hadoop / Spark的任何功能或属性。
flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl, path="xxx" , mode = "overwrite")
这是我得到的输出:
.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc
part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000
答案 0 :(得分:2)
不可能。将为所有Spark数据源和内置的传统RDD API生成校验和文件,并且该行为是不可配置的。
要完全避免这种情况,您应该:
并添加spakrlyr
包装器以在R代码库中公开。