pyspark:跳过丢失的文件时为read.parquet

时间:2018-12-10 11:18:34

标签: pyspark

我认为这个问题与Spark : Read file only if the path exists有关,但另一个问题与Scala有关。

我正在从hdfs中读取文件:

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

问题是,如果缺少文件,read命令将引发异常并停止。

是否可以让read.parquet跳过search_path列表中丢失的文件?

非常感谢

1 个答案:

答案 0 :(得分:0)

您可以使用相同的方法:使用python hdfs客户端测试目录是否为空。

请参考this link进一步使用。