Question

我正在通过使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中，每个零件文件都有一个.crc文件。

我正在寻找可避免生成这些.crc文件的Hadoop / Spark的任何功能或属性。

flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl,  path="xxx" , mode = "overwrite")

这是我得到的输出：

.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc

part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000

Answer 1

不可能。将为所有Spark数据源和内置的传统RDD API生成校验和文件，并且该行为是不可配置的。

要完全避免这种情况，您应该：

并添加spakrlyr包装器以在R代码库中公开。