Spark 2 read.csv-空值

时间:2019-02-07 17:44:21

标签: scala csv apache-spark dataframe apache-spark-dataset

我正在尝试将项目从Spark 1.6升级到Spark 2.3.0,并且我阅读了新的csv阅读器更好(SQLContext.read.csv)。

但是,数据砖读取器以不同的方式处理csv文件中的空值。

例如,如果我在csv上有一行:

  

1,Testing,true

在Spark 1.6上,我得到了以下结果:

+-------+-------+-----+------+
|    _c0|    _c1|  _c2|   _c3|
+-------+-------+-----+------+
|   1   |Testing|     | true |
+-------+-------+-----+------+

但是,在Spark 2.3.0上,我得到:

+-------+-------+-----+------+
|    _c0|    _c1|  _c2|   _c3|
+-------+-------+-----+------+
|   1   |Testing| null| true |
+-------+-------+-----+------+

我尝试使用选项.option("nullValue", "") 但这似乎不起作用。

有什么建议吗?

编辑: 经过彻底检查-Spark 2.3.0中似乎没有任何选择

谢谢!

0 个答案:

没有答案