我想列出与gs://bucketname*
相匹配的云存储中的所有存储桶。我曾尝试使用gsutil,但仍无法通过spark读取或readstream进行操作。
gs:// bucket1 gs:// bucket2 gs:// bucketN
工作:gsutil ls gs://bucket*/mydir/abcd*.txt
不起作用:sc.textFile("gs://bucket*/mydir/abcd*.txt")
答案 0 :(得分:0)
gsutil通过在服务器端执行存储区列表和对象列表(带有可选前缀)查询,然后按通配符客户端过滤结果来实现通配符。由于spark不支持相同的功能,因此您必须列出存储桶和对象并自己进行过滤。