Question

以下代码不会添加默认的双引号。我也尝试使用选项quote添加＃和单引号但没有成功。我还将quoteMode与ALL和NON_NUMERIC选项一起使用，但输出中仍然没有变化。

s2d.coalesce(64).write
  .format("com.databricks.spark.csv")
  .option("header", "false")
  .save(fname)

我还可以尝试其他选择吗？我在spark 2.1上使用spark-csv 2.11。

输出它产生：

d4c354ef,2017-03-14 16:31:33,2017-03-14 16:31:46,104617772177,340618697

输出我正在寻找：

“d4c354ef”,”2017-03-14 16:31:33”,”2017-03-14 16:31:46”,104617772177,340618697

Answer 1

tl; dr 启用quoteAll选项。

scala> Seq(("hello", 5)).toDF.write.option("quoteAll", true).csv("hello5.csv")

以上给出了以下输出：

$ cat hello5.csv/part-00000-a0ecb4c2-76a9-4e08-9c54-6a7922376fe6-c000.csv
"hello","5"

假设quote为"（请参阅CSVOptions）

然而，它并没有给你＆＃34;所有非数字字符的双引号。＆＃34; 抱歉。

您可以在CSVOptions中看到所有选项，作为CSV阅读器和编写器选项的来源。

P.S。 com.databricks.spark.csv目前只是csv格式的别名。您可以互换使用，但较短的csv是首选。

P.S。使用option("header", false)（false作为布尔值而非字符串），这将使您的代码更加类型安全。

Answer 2

在内置旧CSV库的Spark 2.1中，我看不到csv DataFrameWriter Row方法中您想要的内容here。

所以我猜你必须“手动”映射数据以确定哪些isNumeric组件是非数字并相应地引用它们。您可以使用这样简单的def isNumeric(s: String) = s.nonEmpty && s.forall(Character.isDigit)辅助函数：

DataSet

在映射isNumeric时，请引用false为while con1: while con2: ... print(...,end=" ") #this print will put everything in the line ... print() #make a new line, so any following print use it的值。

如何在引用的所有字段中保存CSV？

2 个答案: