如何从Spark中的多个云存储桶中读取TXT字段?

时间:2020-03-11 14:48:12

标签: apache-spark pyspark google-cloud-storage spark-streaming hadoop-streaming

我想列出与gs://bucketname*相匹配的云存储中的所有存储桶。我曾尝试使用gsutil,但仍无法通过spark读取或readstream进行操作。

gs:// bucket1 gs:// bucket2 gs:// bucketN

工作:gsutil ls gs://bucket*/mydir/abcd*.txt

不起作用:sc.textFile("gs://bucket*/mydir/abcd*.txt")

1 个答案:

答案 0 :(得分:0)

gsutil通过在服务器端执行存储区列表和对象列表(带有可选前缀)查询,然后按通配符客户端过滤结果来实现通配符。由于spark不支持相同的功能,因此您必须列出存储桶和对象并自己进行过滤。