使用spark scala读取具有空列值的CSV文件时出错

时间:2017-07-01 07:10:29

标签: scala

我正在尝试使用spark Scala分析CSV文件,但问题是我的CSV文件包含空值的列也是如此,因此从CSV文件读取数据时我收到错误,如java.lang.ArrayIndexOutOfBoundException:12

我在CSV文件中的总列数是13,但是1列包含空值。enter image description here请在下面找到我的代码段的附件。提前致谢

1 个答案:

答案 0 :(得分:0)

我建议使用databricks CSV库。请使用以下maven依赖项Scala 2.11

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .load("cars.csv")

示例代码:

<button>

参考:https://github.com/databricks/spark-csv