是否可以访问Spark发现并随后读取的所有文件路径?例如:
假设 create(participants, id){
this.meetings.push({
id : id,
participants : participants
});
this.participated.unshift({
id : id,
participants : participants
});
}
中有3个文件
s3://bucket/
Spark在阅读时会发现这些文件
s3://bucket/file1.json
s3://bucket/file2.json
s3://bucket/file3.json
我要访问文件路径列表:
paths = df.getFilesPaths()
df = spark.read.json("s3://bucket/")
答案 0 :(得分:0)
以下是获取输入文件列表的方法:
from pyspark.sql.functions import input_file_name
input_files = [
r.input_file for r in
df.withColumn("input_file", input_file_name()).select("input_file").distinct().collect()
]