Question

我必须在pandas中从AWS S3导入.csv文件，对它们进行处理，然后以.csv格式上传回S3作为单个主文件。我正在使用BOTO与S3建立连接并提供文件的确切路径以将其导入本地目录。现在，在构建过程之后，我想点击所有文件所在的S3文件夹并将它们导入到本地（或者可能不是），在它们之上进行处理并将它们写回不同的S3文件夹中斗在另一个文件夹中。

`from boto.s3.connection import S3Connection
 from boto.s3.key import Key
 import pandas as pd
 def get_data():
    conn = S3Connection(configuration['aws_access_key_id'],
                        configuration['aws_secret_access_key'])
    bucket = conn.get_bucket(bucket_name=configuration["S3_SURVEY_BUCKET"])
    k = Key(bucket)
    k.key = 'landing/survey/2015_04_24_WDYWTC.csv'
    k.get_contents_to_filename(configuration["SOURCE_FOLDER"])`

我的问题是我如何能够实现它，考虑到我想为所有数据保留一个文件。非常感谢任何建议。

从pandas中的S3导入多个csv文件，并在处理后追加到一个

0 个答案: