如何使用Python访问存储区GCS子文件夹中的文件?

时间:2019-02-18 01:22:39

标签: python-3.x google-cloud-platform google-cloud-storage

from google.cloud import storage
import os
bucket = client.get_bucket('path to bucket')

上面的代码将我连接到存储桶,但我正在努力与存储桶中的特定文件夹连接。

我正在尝试此代码的变体,但没有运气:

blob = bucket.get_blob("training/bad")
blob = bucket.get_blob("/training/bad")
blob = bucket.get_blob("path to bucket/training/bad")

我希望访问该错误子文件夹中的图像列表,但似乎无法这样做。 尽管阅读了文档,但我什至不完全了解blob是什么,并且根据教程对其进行了介绍。

谢谢。

2 个答案:

答案 0 :(得分:5)

您错过的事实是,在GCS中,存储桶中的对象不是以类似于文件系统的目录结构/层次结构组织的,而是以平面结构组织的。

可以在How Subdirectories Work中找到更详细的解释(在gsutil上下文中,是的,但是基本原因是相同的-GCS平面命名空间):

  

gsutil提供了层次结构文件树的错觉   Google云端存储服务支持的“固定”名称空间。至   服务,对象gs://your-bucket/abc/def.txt只是一个对象   恰好在其名称中包含“ /”字符。没有“ abc”   目录;只是一个具有给定名称的对象。

由于GCS中没有(子)目录,因此/training/bad实际上并不存在,因此您无法列出其内容。您所要做的就是列出存储桶中的所有对象,然后选择名称/路径以/training/bad开头的对象。

答案 1 :(得分:2)

如果您想查找特定前缀(子目录)下的斑点(文件),则可以指定prefixdelimiter list_blobs()函数的参数

请参见以下示例,该示例取自Google Listing Objects example(也为GitHub snippet

def list_blobs_with_prefix(bucket_name, prefix, delimiter=None):
    """Lists all the blobs in the bucket that begin with the prefix.

    This can be used to list all blobs in a "folder", e.g. "public/".

    The delimiter argument can be used to restrict the results to only the
    "files" in the given "folder". Without the delimiter, the entire tree under
    the prefix is returned. For example, given these blobs:

        /a/1.txt
        /a/b/2.txt

    If you just specify prefix = '/a', you'll get back:

        /a/1.txt
        /a/b/2.txt

    However, if you specify prefix='/a' and delimiter='/', you'll get back:

        /a/1.txt

    """
    storage_client = storage.Client()
    bucket = storage_client.get_bucket(bucket_name)

    blobs = bucket.list_blobs(prefix=prefix, delimiter=delimiter)

    print('Blobs:')
    for blob in blobs:
        print(blob.name)

    if delimiter:
        print('Prefixes:')
        for prefix in blobs.prefixes:
            print(prefix)