在pyspark中以CSV格式读取Excel文件

时间:2019-11-26 20:34:05

标签: excel csv pyspark

这里的第一个问题,如果有不清楚的地方,我深表歉意。 我是pySpark的新手,并尝试使用databricks通过以下代码读取保存为csv的Excel文件

df = spark.read.csv('/FileStore/tables/file.csv', sep = ";", inferSchema = "true", header = "true")

这很好用,除了一些观察值得到空值,而在excel文件中没有空值。实际值可以在其他行中找到。 也许用一个例子更好地解释一下: 如果excel文件的行A B C D 然后它进入表中(对于某些行):

A B null null C D null null

我的问题是我该如何解决?预先感谢

1 个答案:

答案 0 :(得分:0)

现在,您将分隔符设置为;,但是在CSV文件中,分隔符通常是, C omma S 分开的 V alue)。如果您使用Spark CSV阅读器,则定界符会自动设置为逗号:

spark.read.format("csv")
           .option("header", "true")
           .option("inferSchema", "true")
           .load("/FileStore/tables/file.csv")