应用错误收集

我有一个读取csv文件并在pyspark中进行一些处理的过程。有时我可能会得到一个零字节的空文件。在这种情况下，当我使用下面的代码

df = spark.read.csv('/path/empty.txt', header = False)

失败，并显示错误：

py4j.protocol.Py4JJavaError：调用o139.csv时发生错误。：java.lang.UnsupportedOperationException：空集合

由于其为空文件，因此我尝试将其读取为json，效果很好

df = spark.read.json('/path/empty.txt')

当我将标头手动添加到empt csv时，代码就可以正常读取。

df = spark.read.csv('/path/empty.txt', header = True)

在一些地方，我读过使用databricks csv，但是我没有要使用的数据块csv软件包选项，因为这些jar在我的环境中不可用。