S3在CSV中选择检索标题

时间:2019-04-25 22:22:36

标签: python csv amazon-s3 export-to-csv boto3

我正在尝试使用以下代码从存储在S#存储桶中的CSV中获取记录的子集:

s3 = boto3.client('s3')
bucket = bucket
file_name = file

sql_stmt = """SELECT S.* FROM s3object S LIMIT 10"""


req = s3.select_object_content(
    Bucket=bucket,
    Key=file,
    ExpressionType='SQL',
    Expression=sql_stmt,
    InputSerialization = {'CSV': {'FileHeaderInfo': 'USE'}},
    OutputSerialization = {'CSV': {}},
)

records = []
for event in req['Payload']:
    if 'Records' in event:
        records.append(event['Records']['Payload'])
    elif 'Stats' in event:
        stats = event['Stats']['Details']


file_str = ''.join(r.decode('utf-8') for r in records)

select_df = pd.read_csv(StringIO(file_str))
df = pd.DataFrame(select_df)
print(df)

这成功地产生了记录,但是错过了标题。

我在这里S3 Select CSV Headers看到S3 Select根本不产生标题。那么,是否可以通过其他任何方式在S3中检索CSV文件的标题?

3 个答案:

答案 0 :(得分:1)

更改InputSerialization={'CSV': {"FileHeaderInfo": "Use"}},

InputSerialization={'CSV': {"FileHeaderInfo": "NONE"}},

然后,它将打印完整的内容,包括header

说明:

FileHeaderInfo接受“ NONE”或“ USE”或“ IGNORE”之一。

使用NONE选项而不是USE,它也会同时打印header,因为NONE告诉您{{1}也需要header 1}}。

这里是参考。 https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.html#S3.Client.select_object_content

希望对您有帮助。

答案 1 :(得分:0)

Red Boy的解决方案不允许您在查询中使用列名,而必须使用列索引。 这对我不利,因此我的解决方案是执行另一个查询,以仅获取标头并将其与实际查询结果连接起来。这是基于JavaScript的,但同样适用于Python:

      const params = {
        Bucket: bucket,
        Key: "file.csv",
        ExpressionType: 'SQL',
        Expression: `select * from s3object s where s."date" >= '${fromDate}'`,
        InputSerialization: {'CSV': {"FileHeaderInfo": "USE"}},
        OutputSerialization: {'CSV': {}},
      };

      //s3 select doesn't return the headers, so need to run another query to only get the headers (see '{"FileHeaderInfo": "NONE"}')
      const headerParams = {
        Bucket: bucket,
        Key: "file.csv",
        ExpressionType: 'SQL',
        Expression: "select * from s3object s limit 1", //this will only get the first record of the csv, and since we are not parsing headers, they will be included
        InputSerialization: {'CSV': {"FileHeaderInfo": "NONE"}},
        OutputSerialization: {'CSV': {}},
      };

      //concatenate header + data -- getObject is a method that handles the request
      return await this.getObject(s3, headerParams) + await this.getObject(s3, params);

答案 2 :(得分:0)

简而言之,

<块引用>

FileHeaderInfo (string) -- 描述输入的第一行。

有效值为:

NONE :第一行不是标题。

IGNORE :第一行是标题, 但您不能使用标题值来指示表达式中的列。您可以使用列位置(例如 _1、_2、...)来指示列(SELECT s._1 FROM OBJECT s)。

使用:第一行是 一个标题,您可以使用标题值来标识表达式中的列(SELECT "name" FROM OBJECT )。