这里的第一个问题,如果有不清楚的地方,我深表歉意。 我是pySpark的新手,并尝试使用databricks通过以下代码读取保存为csv的Excel文件
df = spark.read.csv('/FileStore/tables/file.csv',
sep = ";",
inferSchema = "true",
header = "true")
这很好用,除了一些观察值得到空值,而在excel文件中没有空值。实际值可以在其他行中找到。 也许用一个例子更好地解释一下: 如果excel文件的行A B C D 然后它进入表中(对于某些行):
A B null null
C D null null
我的问题是我该如何解决?预先感谢
答案 0 :(得分:0)
现在,您将分隔符设置为;
,但是在CSV文件中,分隔符通常是,
( C omma S 分开的 V alue)。如果您使用Spark CSV阅读器,则定界符会自动设置为逗号:
spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/file.csv")