在python中用s3解析多个实木复合地板文件?

时间:2019-10-16 11:37:45

标签: amazon-s3 parquet

我正在尝试使用boto3从单个S3存储桶子文件夹中读取多个实木复合地板文件。

我使用python读取单个csv文件没有问题,但是以前我无法使其与多个文件读取一起使用。

我以前看到的答案是aws不支持此功能。但是,据我了解,此功能已在2018年底实现。

那么,有没有办法使用我的工作代码(如下所示)为相关文件夹中的所有镶木文件运行s3 select语句,即从所有文件中选择所有行? >

存储桶中工作子文件夹中的文件:

_success
file1.snapy.parquet
file2.snapy.parquet

python代码:

response = s3.select_object_content(
            Bucket='somebucket',
            Key= 'pathtosubfolder',
            ExpressionType='SQL', <br>
            InputSerialization = {'Parquet': {}},
            Expression="select * from s3object s ",
            OutputSerialization = {'CSV': {}},
            )

我期望sql语句的结果,但是我得到了:

  

[ERROR] NoSuchKey: An error occurred (NoSuchKey) when calling the SelectObjectContent operation: The specified key does not exist.

1 个答案:

答案 0 :(得分:0)

如果要查询S3中的镶木地板格式对象的集合,可能要看一下Amazon Athena

雅典娜是完全托管的Facebook Presto服务。