读取空的CSV Pyspark

时间:2018-11-07 20:38:06

标签: python apache-spark pyspark databricks

我有一个读取csv文件并在pyspark中进行一些处理的过程。有时我可能会得到一个零字节的空文件。在这种情况下,当我使用下面的代码

df = spark.read.csv('/path/empty.txt', header = False)

失败,并显示错误:

  

py4j.protocol.Py4JJavaError:调用o139.csv时发生错误。   :java.lang.UnsupportedOperationException:空集合

由于其为空文件,因此我尝试将其读取为json,效果很好

df = spark.read.json('/path/empty.txt')

当我将标头手动添加到empt csv时,代码就可以正常读取。

df = spark.read.csv('/path/empty.txt', header = True)

在一些地方,我读过使用databricks csv,但是 我没有要使用的数据块csv软件包选项,因为这些jar在我的环境中不可用。

0 个答案:

没有答案