如何使用事件触发的lambda从S3存储桶获取最新的文件名或文件

时间:2017-08-24 02:06:12

标签: python python-3.x amazon-web-services amazon-s3 aws-lambda

我是AWS服务的新手,对无服务器架构只有一周的经验,我的要求是在新文件上传到特定存储桶时触发事件,一旦设置了事件触发器,我的Lambda应该得到最新文件的详细信息,如名称,大小和创建日期。

源每次都会在新文件夹中上传此文件,并使用当前日期命名该文件夹。

到目前为止,我能够破解如何创建我的Lambda函数并监听事件触发器。

这是我的代码。

import boto3
import botocore
import datetime
import logging

def lambda_handler(event, context):
    logging.info('Start function')
    s3 = boto3.resource('s3')
    DATE = datetime.datetime.today().strftime('%Y-%m-%d')
    BUCKET_NAME = 'monkey-banana-dev'
    KEY = '/banana/incoming/daily/{}'.format(DATE)
    logging.info('Getting file from {}'.format(KEY))
    try:
        s3.Bucket(BUCKET_NAME).download_file(KEY, 'name_of_my_file')
    except botocore.exceptions.ClientError as e:
        if e.response['Error']['Code'] == "404":
            print("The object does not exist.")
        else:
            raise

这里因为我知道它将成为今天的日期,因此我使用datetime来获取确切的KEY,但文件名将始终不同。虽然我知道它将成为带有.txt后缀的文本文件,但我无法解决如何从触发器获取最新上传文件的名称和其他详细信息。

3 个答案:

答案 0 :(得分:2)

如上所述,此链接包含信息 - http://docs.aws.amazon.com/lambda/latest/dg/eventsources.html#eventsources-s3-put

您需要做的是利用传递给函数的事件对象。它包含链接中提供的详细信息。正如您在链接中的示例中所看到的,您需要访问。这将包含完整路径,包括您提到的日期,因为密钥是完整文件路径。

为了帮助调试此问题,您始终使用Python中的 print 功能将事件值打印到控制台。

答案 1 :(得分:1)

你有一个event object,它包含一个列表的“记录”键。

您可以过滤eventName'ObjectCreated:Put'的记录,然后按键“eventTime”对列表进行排序,以获取最新的事件数据。

def lambda_handler(event, context):
    records = [x for x in event.get('Records', []) if x.get('eventName') == 'ObjectCreated:Put']
    sorted_events = sorted(records, key=lambda e: e.get('eventTime'))
    latest_event = sorted_events[-1] if sorted_events else {}
    info = latest_event.get('s3', {})
    file_key = info.get('object', {}).get('key')
    bucket_name = info.get('bucket', {}).get('name')

答案 2 :(得分:1)

“键”将包含整个文件路径。 例子-

import boto3
import os
s3 = boto3.resource('s3')
bucket=s3.Bucket('hcss-heavyjob-raw-tables')
for key in bucket.objects.all():
    if key.key.startswith('heavyjob/EMPMAST'):
           print(key.key)'

输出-

  

heavyjob / EMPMAST / 20190524-165352044.csv

     

heavyjob / EMPMAST / 20190529-153011532.csv

     

heavyjob / EMPMAST / LOAD00000001.csv

您可以在basename上使用key.key来获取文件名 或

head,tail = os.path.split(key.key)
print(tail)