如何避免/禁用在Sparklyr中写入csv文件的.crc文件?

时间:2018-07-05 15:06:04

标签: r csv amazon-s3 sparklyr

我正在通过使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中,每个零件文件都有一个.crc文件。

我正在寻找可避免生成这些.crc文件的Hadoop / Spark的任何功能或属性。

flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl,  path="xxx" , mode = "overwrite")

这是我得到的输出:

.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc

part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000

1 个答案:

答案 0 :(得分:2)

不可能。将为所有Spark数据源和内置的传统RDD API生成校验和文件,并且该行为是不可配置的。

要完全避免这种情况,您应该:

  • 实施您自己的Hadoop输入格式。
  • 或者实现自己的不依赖Hadoop输入格式的数据源(v1或v2)。

并添加spakrlyr包装器以在R代码库中公开。