我正在尝试将项目从Spark 1.6升级到Spark 2.3.0,并且我阅读了新的csv阅读器更好(SQLContext.read.csv)。
但是,数据砖读取器以不同的方式处理csv文件中的空值。
例如,如果我在csv上有一行:
1,Testing,true
在Spark 1.6上,我得到了以下结果:
+-------+-------+-----+------+
| _c0| _c1| _c2| _c3|
+-------+-------+-----+------+
| 1 |Testing| | true |
+-------+-------+-----+------+
但是,在Spark 2.3.0上,我得到:
+-------+-------+-----+------+
| _c0| _c1| _c2| _c3|
+-------+-------+-----+------+
| 1 |Testing| null| true |
+-------+-------+-----+------+
我尝试使用选项.option("nullValue", "")
但这似乎不起作用。
有什么建议吗?
编辑: 经过彻底检查-Spark 2.3.0中似乎没有任何选择
谢谢!