CSV中不需要的字符

时间:2018-03-10 15:48:45

标签: csv apache-spark

尝试从spark中保存csv文件但是当我在vim中打开文件时,我得到以下字符,我不明白它们的含义或它们如何进入文件。 enter image description here

这是我的作家来自spark:

df.write.partitionBy(partitionCol).format("csv").mode(writeMode)
  .option("sep", ",")
  .option("encoding", "UTF-8")
  .option("quote", "")
  .option("escape", "\\")
  .option("escapeQuotes", true)
  .option("quoteAll", true)
  .option("header", hasHeader)
  .option("nullValue", "")
  .option("dateFormat", "yyyy-MM-dd")
  .option("timestampFormat", "yyyy-MM-dd'T'HH:mm:ss.SSSZZ")
  .option("compression", "gzip")
  .save(outPath)

1 个答案:

答案 0 :(得分:1)

来自the documentation

  

“quote - 设置用于转义引用值的单个字符,其中分隔符可以是值的一部分。如果设置None,则使用默认值”。 如果设置了空字符串,则使用u0000(空字符)。“

因此,当您将quote设置为空字符串时,您将获得空字节作为引号(传统上在caret notation中表示为“^ @”。)