使用boto3和回调

时间:2017-01-24 12:12:43

标签: python amazon-s3 callback boto3

我正在尝试使用boto3从S3下载文本文件。

这是我写的。

class ProgressPercentage(object):
    def __init__(self, filename):
        self._filename = filename
        self._size = float(os.path.getsize(filename))
        self._seen_so_far = 0
        self._lock = threading.Lock()

    def __call__(self, bytes_amount):
        # To simplify we'll assume this is hooked up
        # to a single filename.
        with self._lock:
            self._seen_so_far += bytes_amount
            percentage = round((self._seen_so_far / self._size) * 100,2)
            LoggingFile('{} is the file name. {} out of {} done. The percentage completed is {} %'.format(str(self._filename), str(self._seen_so_far), str(self._size),str(percentage)))
            sys.stdout.flush()

我正在使用

来调用它
transfer.download_file(BUCKET_NAME,FILE_NAME,'{}{}'.format(LOCAL_PATH_TEMP , FILE_NAME),callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))

这给了我一个错误,该文件夹中没有该文件。显然,当我已经在同一文件夹中有一个具有此名称的文件时,它可以工作,但是当我下载新文件时,它会出错。

我需要做出哪些更正?

8 个答案:

答案 0 :(得分:7)

progressbar安装pip3 install progressbar

import boto3, os
import progressbar

bucket_name = "<your-s3-bucket-name>"
folder_name = "<your-directory-name-locally>"
file_name = "<your-filename-locally>"
path = folder_name + "/" + file_name
s3 = boto3.client('s3', aws_access_key_id="<your_aws_access_key_id>", aws_secret_access_key="<your_aws_secret_access_key>")

statinfo = os.stat(file_name)

up_progress = progressbar.progressbar.ProgressBar(maxval=statinfo.st_size)

up_progress.start()

def upload_progress(chunk):
    up_progress.update(up_progress.currval + chunk)

s3.upload_file(file_name, bucket_name, path, Callback=upload_progress)

up_progress.finish()

答案 1 :(得分:5)

callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))创建一个ProgressPercentage对象,运行其__init__方法,并将对象作为callback传递给download_file方法。这意味着{/ 1}}方法在 __init__开始之前运行

download_file方法中,您尝试读取正在下载的本地文件的大小,由于文件不存在而引发异常,因为下载尚未开始。如果您已经下载了该文件,那么就没有问题,因为存在本地副本并且可以读取其大小。

当然,这只是你所看到的例外的原因。您使用__init__属性作为下载进度的最大值。但是,您尝试使用本地文件的大小。在文件完全下载之前,本地文件系统不知道文件有多大,它只知道它现在占用了多少空间。这意味着当您下载文件时,它将逐渐变大,直到达到其完整大小。因此,将本地文件的大小视为下载的最大大小并不合理。它可能适用于您已经下载文件的情况,但这不是很有用。

问题的解决方案是检查要下载的文件的大小,而不是本地副本的大小。这可以确保您获得正在下载的任何内容的实际大小,并且该文件存在(如果没有,则无法下载)。您可以通过使用_size获取远程文件的大小来执行此操作,如下所示

head_object

作为最后一点,虽然您从Boto3 documentation获得了代码,但它不起作用,因为它是用于文件上传的。在这种情况下,本地文件是源,它的存在是保证的。

答案 2 :(得分:3)

这是我的实现。没有其他依赖项,请修改进度回调函数以显示所需内容。

import sys
import boto3

s3_client = boto3.client('s3')

def download(local_file_name, s3_bucket, s3_object_key):

    meta_data = s3_client.head_object(Bucket=s3_bucket, Key=s3_object_key)
    total_length = int(meta_data.get('ContentLength', 0))
    downloaded = 0

    def progress(chunk):
        nonlocal downloaded
        downloaded += chunk
        done = int(50 * downloaded / total_length)
        sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) )
        sys.stdout.flush()

    print(f'Downloading {s3_object_key}')
    with open(local_file_name, 'wb') as f:
        s3_client.download_fileobj(s3_bucket, s3_object_key, f, Callback=progress)

例如

local_file_name = 'test.csv'
s3_bucket = 'my-bucket'
s3_object_key = 'industry/test.csv'

download(local_file_name, s3_bucket, s3_object_key)

演示:

enter image description here

经过boto3>=1.14.19python>=3.7

的测试

答案 3 :(得分:2)

对象client.head_object(Bucket=bucket, Key=filename)是一个词典。可以使用['ContentLength']访问文件大小。

因此代码:
self._size = client.head_object(Bucket=bucket, Key=filename).ContentLength
应成为:
self._size = float(client.head_object(Bucket=bucket, Key=filename)['ContentLength'])

然后它有效。谢谢!

答案 4 :(得分:1)

尝试执行此操作时,可能有人会偶然发现该答案(根据问题标题)。我知道显示s3上传进度的最简单方法:

将进度条库导入项目。这是我使用的:https://github.com/anler/progressbar

然后:

import progressbar
from hurry.filesize import size
import boto3

bucket = "my-bucket-name"
s3_client = boto3.resource('s3')
...
...

# you get the filesize from wherever you have the file on. your system maybe?
filesize = size(file) 

up_progress = progressbar.AnimatedProgressBar(end=filesize, width=50)
def upload_progress(chunk):
    up_progress + chunk # Notice! No len()
    up_progress.show_progress()
s3_client.meta.client.upload_file(file, bucket, s3_file_name, Callback=upload_progress)

这里要注意的重要事情是使用 Callback 参数(大写C)。它基本上返回上传到s3的字节数。因此,如果您知道原始文件大小,则可以通过一些简单的数学操作来获得进度条。然后,您可以使用任何进度条库。

答案 5 :(得分:1)

official document之后,应用进度跟踪并不是很困难(download_file和upload_file函数相似)。 以下是完整的代码,并进行了一些修改,以便以首选方式查看数据大小。

String s = "null";
System.out.println(s == null);   // false
System.out.println(s.length());  // 4

String t = null;
System.out.println(t == null);   // true
System.out.println(t.length());  // NullPointerException.

答案 6 :(得分:0)

信息

  • 获得@Kshitij Marwah@yummiesnicolas.f.g帖子的积分
  • 使用boto3 1.9.96(通过pip的dl)
  • 已删除threading
  • 更改了显示格式(重写上面的行,直到dl完成)
  • 发布内容,因为黑白文档和下载的软件包不同

代码

class ProgressPercentage(object):
    def __init__(self, o_s3bucket, key_name):
        self._key_name = key_name
        boto_client = o_s3bucket.meta.client
        # ContentLength is an int
        self._size = boto_client.head_object(Bucket=o_s3bucket.name, Key=key_name)['ContentLength']
        self._seen_so_far = 0
        sys.stdout.write('\n')

    def __call__(self, bytes_amount):
        self._seen_so_far += bytes_amount
        percentage = (float(self._seen_so_far) / float(self._size)) * 100
        TERM_UP_ONE_LINE = '\033[A'
        TERM_CLEAR_LINE = '\033[2K'
        sys.stdout.write('\r' + TERM_UP_ONE_LINE + TERM_CLEAR_LINE)
        sys.stdout.write('{} {}/{} ({}%)\n'.format(self._key_name, str(self._seen_so_far), str(self._size), str(percentage)))
        sys.stdout.flush()

然后这样称呼

请注意C上的大写字母Callback(不同于在线文档)

progress = ProgressPercentage(o_s3bucket, key_name)
o_s3bucket.download_file(key_name, full_local_path, Callback=progress)

其中o_s3bucket是:

bucket_name = 'my_bucket_name'
aws_profile = 'default' # this is used to catch creds from .aws/credentials ini file
boto_session = boto3.session.Session(profile_name=aws_profile)
o_s3bucket = boto_session.resource('s3').Bucket(bucket_name)

hth

答案 7 :(得分:0)

这是我发现使用 click(在应用下面的代码之前运行 pip install click)库时有用的一个选项:

import click
import boto3
import os


file_path = os.path.join('tmp', 'file_path')
s3_client = boto3.resource('s3')
with click.progressbar(length=os.path.getsize(file_path)) as progress_bar:
    with open(file_path, mode='rb') as upload_file:
        s3_client.upload_fileobj(
            upload_file,
            'bucket_name',
            'foo_bar',
            Callback=progress_bar.update
)