Spark读取后返回文件路径列表

时间:2019-06-05 16:57:51

标签: apache-spark amazon-s3 pyspark

是否可以访问Spark发现并随后读取的所有文件路径?例如:

假设 create(participants, id){ this.meetings.push({ id : id, participants : participants }); this.participated.unshift({ id : id, participants : participants }); } 中有3个文件

s3://bucket/

Spark在阅读时会发现这些文件

s3://bucket/file1.json
s3://bucket/file2.json
s3://bucket/file3.json

我要访问文件路径列表:

paths = df.getFilesPaths()

df = spark.read.json("s3://bucket/")

1 个答案:

答案 0 :(得分:0)

以下是获取输入文件列表的方法:

from pyspark.sql.functions import input_file_name


input_files = [
    r.input_file for r in 
    df.withColumn("input_file", input_file_name()).select("input_file").distinct().collect()
]