Question

我的CSV文件（位于zip文件中）具有以下数据，

"Potter, Jr",Harry,92.32,09/09/2018
 John,Williams,78,01/02/1992

我使用spark scala csv阅读器阅读了它。如果我使用

.option('quote', '"')
.option('escape', '"')

我将不会获得固定数量的列作为输出。对于第1行，输出将为5，第2行将为4。所需的输出应仅返回4列。有什么办法将其读取为DF或RDD？

谢谢，灰

Answer 1

对于给定的输入数据，我能够使用以下命令读取数据：

val input = spark.read.csv("input_file.csv")

这给了我一个包含4个字符串列的数据框。

Answer 2

检查。

  val df = spark.read.csv("in/potter.txt").toDF("fname","lname","value","dt")
  df.show()

+----------+--------+-----+----------+
|     fname|   lname|value|        dt|
+----------+--------+-----+----------+
|Potter, Jr|   Harry|92.32|09/09/2018|
|      John|Williams|   78|01/02/1992|
+----------+--------+-----+----------+

Spark Scala读取的CSV数据中带有逗号

2 个答案: