我的CSV
文件(位于zip文件中)具有以下数据,
"Potter, Jr",Harry,92.32,09/09/2018
John,Williams,78,01/02/1992
我使用spark scala csv
阅读器阅读了它。如果我使用
.option('quote', '"')
.option('escape', '"')
我将不会获得固定数量的列作为输出。对于第1行,输出将为5,第2行将为4。所需的输出应仅返回4列。有什么办法将其读取为DF
或RDD
?
谢谢, 灰
答案 0 :(得分:0)
对于给定的输入数据,我能够使用以下命令读取数据:
val input = spark.read.csv("input_file.csv")
这给了我一个包含4个字符串列的数据框。
答案 1 :(得分:0)
检查。
val df = spark.read.csv("in/potter.txt").toDF("fname","lname","value","dt")
df.show()
+----------+--------+-----+----------+
| fname| lname|value| dt|
+----------+--------+-----+----------+
|Potter, Jr| Harry|92.32|09/09/2018|
| John|Williams| 78|01/02/1992|
+----------+--------+-----+----------+