亚马逊S3 boto - 如何删除文件夹?

时间:2012-07-11 06:10:53

标签: python amazon-s3 boto

我在s3中创建了一个名为“test”的文件夹,然后将“test_1.jpg”,“test_2.jpg”推入“test”。

现在我想用boto删除文件夹“test”。

我该怎么办?

9 个答案:

答案 0 :(得分:44)

S3中有文件夹。相反,键形成一个平面命名空间。但是,名称中带有斜杠的键会在某些程序中特别显示,包括AWS控制台(例如,请参阅Amazon S3 boto - how to create a folder?)。

您可以(并且必须)通过前缀和删除列出文件,而不是删除“目录”。实质上:

for key in bucket.list(prefix='your/directory/'):
    key.delete()

然而,此页面上其他完成的答案提供了更有效的方法。


请注意,只使用虚拟字符串搜索来搜索前缀。如果前缀为 your/directory ,即没有附加尾部斜杠,程序也会很乐意删除your/directory-that-you-wanted-to-remove-is-definitely-not-t‌​his-one

有关详细信息,请参阅S3 boto list keys sometimes returns directory key.

答案 1 :(得分:40)

我觉得已经有一段时间了,boto3有几种不同的方式来实现这个目标。这假设您要删除测试“文件夹”及其所有对象以下是一种方式:

s3 = boto3.resource('s3')
objects_to_delete = s3.meta.client.list_objects(Bucket="MyBucket", Prefix="myfolder/test/")

delete_keys = {'Objects' : []}
delete_keys['Objects'] = [{'Key' : k} for k in [obj['Key'] for obj in objects_to_delete.get('Contents', [])]]

s3.meta.client.delete_objects(Bucket="MyBucket", Delete=delete_keys)

这应该发出两个请求,一个是获取文件夹中的对象,第二个是删除所述文件夹中的所有对象。

https://boto3.readthedocs.org/en/latest/reference/services/s3.html#S3.Client.delete_objects

答案 2 :(得分:31)

这是2018年(几乎2019年)的版本:

s3 = boto3.resource('s3')
bucket = s3.Bucket('mybucket')
bucket.objects.filter(Prefix="myprefix/").delete()

答案 3 :(得分:19)

您可以将bucket.delete_keys()与键列表一起使用(我发现这个键的数量比使用key.delete快一个数量级)。

这样的事情:

delete_key_list = []
for key in bucket.list(prefix='/your/directory/'):
    delete_key_list.append(key)
    if len(delete_key_list) > 100:
        bucket.delete_keys(delete_key_list)
        delete_key_list = []

if len(delete_key_list) > 0:
    bucket.delete_keys(delete_key_list)

答案 4 :(得分:15)

Patrick的解决方案略有改进。您可能知道,list_objects()delete_objects()都有一个1000的对象限制。这就是为什么你必须在列表中分页列表和删除。这非常普遍,您可以Prefixpaginator.paginate()删除子目录/路径

client = boto3.client('s3', **credentials)
paginator = client.get_paginator('list_objects_v2')
pages = paginator.paginate(Bucket=self.bucket_name)

delete_us = dict(Objects=[])
for item in pages.search('Contents'):
    delete_us['Objects'].append(dict(Key=item['Key']))

    # flush once aws limit reached
    if len(delete_us['Objects']) >= 1000:
        client.delete_objects(Bucket=bucket, Delete=delete_us)
        delete_us = dict(Objects=[])

# flush rest
if len(delete_us['Objects']):
    client.delete_objects(Bucket=bucket, Delete=delete_us)

答案 5 :(得分:3)

如果在S3存储桶上启用了版本控制:

s3 = boto3.resource('s3')
bucket = s3.Bucket('mybucket')
bucket.object_versions.filter(Prefix="myprefix/").delete()

答案 6 :(得分:1)

您可以使用aws cli:https://aws.amazon.com/cli/和一些Unix命令来完成此操作。

此aws cli命令应该起作用:

aws s3 rm <your_bucket_name> --recursive --exclude "*" --include "<your_regex>" 

如果要包含子文件夹,则应添加标志-递归

或使用Unix命令:

aws s3 ls s3://<your_bucket_name>/ | awk '{print $4}' | xargs -I%  <your_os_shell>   -c 'aws s3 rm s3:// <your_bucket_name>  /% $1'

说明:

  1. 列出存储桶中的所有文件-管道->
  2. 获取第四个参数(其文件名)-pipe-> //您可以将其替换为linux命令以匹配您的模式
  3. 使用aws cli运行删除脚本

答案 7 :(得分:0)

如果像我一样需要按对象内容过滤,则以下是您的逻辑蓝图:

def get_s3_objects_batches(s3: S3Client, **base_kwargs):
    kwargs = dict(MaxKeys=1000, **base_kwargs)
    while True:
        response = s3.list_objects_v2(**kwargs)
        # to yield each and every file: yield from response.get('Contents', [])
        yield response.get('Contents', [])
        if not response.get('IsTruncated'):  # At the end of the list?
            break
        continuation_token = response.get('NextContinuationToken')
        kwargs['ContinuationToken'] = continuation_token


def your_filter(b):
   raise NotImplementedError()


session = boto3.session.Session(profile_name=profile_name)
s3client = session.client('s3')
for batch in get_s3_objects_batches(s3client, Bucket=bucket_name, Prefix=prefix):
    to_delete = [{'Key': obj['Key']} for obj in batch if your_filter(obj)]
    if to_delete:
        s3client.delete_objects(Bucket=bucket_name, Delete={'Objects': to_delete})

答案 8 :(得分:0)

def remove(path):
    session = boto3.Session(
        aws_access_key_id = config["aws_access_key_id"],
        aws_secret_access_key = config["aws_secret_access_key"],
        region_name=config["region_name"],
    )
    s3 = session.client('s3')
    bucket = config["bucketName"]

    try:
        result = s3.delete_object(Bucket = bucket, Key=path)
    except Exception as e:
        print(e)