以下代码不会添加默认的双引号。我也尝试使用选项quote
添加#和单引号但没有成功。我还将quoteMode
与ALL
和NON_NUMERIC
选项一起使用,但输出中仍然没有变化。
s2d.coalesce(64).write
.format("com.databricks.spark.csv")
.option("header", "false")
.save(fname)
我还可以尝试其他选择吗?我在spark 2.1上使用spark-csv 2.11。
输出它产生:
d4c354ef,2017-03-14 16:31:33,2017-03-14 16:31:46,104617772177,340618697
输出我正在寻找:
“d4c354ef”,”2017-03-14 16:31:33”,”2017-03-14 16:31:46”,104617772177,340618697
答案 0 :(得分:4)
tl; dr 启用quoteAll
选项。
scala> Seq(("hello", 5)).toDF.write.option("quoteAll", true).csv("hello5.csv")
以上给出了以下输出:
$ cat hello5.csv/part-00000-a0ecb4c2-76a9-4e08-9c54-6a7922376fe6-c000.csv
"hello","5"
假设quote
为"
(请参阅CSVOptions)
然而,它并没有给你"所有非数字字符的双引号。" 抱歉。
您可以在CSVOptions中看到所有选项,作为CSV阅读器和编写器选项的来源。
P.S。 com.databricks.spark.csv
目前只是csv
格式的别名。您可以互换使用,但较短的csv
是首选。
P.S。使用option("header", false)
(false
作为布尔值而非字符串),这将使您的代码更加类型安全。
答案 1 :(得分:2)
在内置旧CSV库的Spark 2.1中,我看不到csv
DataFrameWriter
Row
方法中您想要的内容here。
所以我猜你必须“手动”映射数据以确定哪些isNumeric
组件是非数字并相应地引用它们。您可以使用这样简单的def isNumeric(s: String) = s.nonEmpty && s.forall(Character.isDigit)
辅助函数:
DataSet
在映射isNumeric
时,请引用false
为while con1:
while con2:
...
print(...,end=" ") #this print will put everything in the line
...
print() #make a new line, so any following print use it
的值。