标签: pyspark
我认为这个问题与Spark : Read file only if the path exists有关,但另一个问题与Scala有关。
我正在从hdfs中读取文件:
hdfs
df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)
问题是,如果缺少文件,read命令将引发异常并停止。
read
是否可以让read.parquet跳过search_path列表中丢失的文件?
read.parquet
search_path
非常感谢
答案 0 :(得分:0)
您可以使用相同的方法:使用python hdfs客户端测试目录是否为空。
请参考this link进一步使用。