我有一个读取csv文件并在pyspark中进行一些处理的过程。有时我可能会得到一个零字节的空文件。在这种情况下,当我使用下面的代码
df = spark.read.csv('/path/empty.txt', header = False)
失败,并显示错误:
py4j.protocol.Py4JJavaError:调用o139.csv时发生错误。 :java.lang.UnsupportedOperationException:空集合
由于其为空文件,因此我尝试将其读取为json,效果很好
df = spark.read.json('/path/empty.txt')
当我将标头手动添加到empt csv
时,代码就可以正常读取。
df = spark.read.csv('/path/empty.txt', header = True)
在一些地方,我读过使用databricks csv,但是 我没有要使用的数据块csv软件包选项,因为这些jar在我的环境中不可用。