应用错误收集

pyspark：跳过丢失的文件时为read.parquet

时间：2018-12-10 11:18:34

标签： pyspark

我认为这个问题与Spark : Read file only if the path exists有关，但另一个问题与Scala有关。

我正在从hdfs中读取文件：

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

问题是，如果缺少文件，read命令将引发异常并停止。

是否可以让read.parquet跳过search_path列表中丢失的文件？

非常感谢

1 个答案:

答案 0 :(得分：0)

您可以使用相同的方法：使用python hdfs客户端测试目录是否为空。

请参考this link进一步使用。