Spark Scala读取的CSV数据中带有逗号

时间:2018-10-09 11:03:21

标签: scala csv apache-spark

我的CSV文件(位于zip文件中)具有以下数据,

"Potter, Jr",Harry,92.32,09/09/2018
 John,Williams,78,01/02/1992

我使用spark scala csv阅读器阅读了它。如果我使用

.option('quote', '"')
.option('escape', '"')

我将不会获得固定数量的列作为输出。对于第1行,输出将为5,第2行将为4。所需的输出应仅返回4列。有什么办法将其读取为DFRDD

谢谢, 灰

2 个答案:

答案 0 :(得分:0)

对于给定的输入数据,我能够使用以下命令读取数据:

val input = spark.read.csv("input_file.csv")

这给了我一个包含4个字符串列的数据框。

答案 1 :(得分:0)

检查。

  val df = spark.read.csv("in/potter.txt").toDF("fname","lname","value","dt")
  df.show()

+----------+--------+-----+----------+
|     fname|   lname|value|        dt|
+----------+--------+-----+----------+
|Potter, Jr|   Harry|92.32|09/09/2018|
|      John|Williams|   78|01/02/1992|
+----------+--------+-----+----------+