Question

这里的第一个问题，如果有不清楚的地方，我深表歉意。我是pySpark的新手，并尝试使用databricks通过以下代码读取保存为csv的Excel文件

df = spark.read.csv('/FileStore/tables/file.csv', sep = ";", inferSchema = "true", header = "true")

这很好用，除了一些观察值得到空值，而在excel文件中没有空值。实际值可以在其他行中找到。也许用一个例子更好地解释一下：如果excel文件的行A B C D 然后它进入表中（对于某些行）：

A B null null C D null null

我的问题是我该如何解决？预先感谢

Answer 1

现在，您将分隔符设置为;，但是在CSV文件中，分隔符通常是,（ C omma S 分开的 V alue）。如果您使用Spark CSV阅读器，则定界符会自动设置为逗号：

spark.read.format("csv")
           .option("header", "true")
           .option("inferSchema", "true")
           .load("/FileStore/tables/file.csv")

在pyspark中以CSV格式读取Excel文件

1 个答案: