是否可以循环使用Amazon S3存储桶并使用Python计算其文件/密钥中的行数?

时间:2016-05-30 06:34:53

标签: python amazon-web-services amazon-s3 boto

是否可以循环访问Amazon S3存储桶中的文件/密钥,读取内容并使用Python计算行数?

例如:

  1. My bucket: "my-bucket-name"
  2. File/Key : "test.txt" 

我需要遍历文件" test.txt"并计算原始文件中的行数。

示例代码:

for bucket in conn.get_all_buckets():
    if bucket.name == "my-bucket-name":
        for file in bucket.list():
            #need to count the number lines in each file and print to a log.

4 个答案:

答案 0 :(得分:4)

使用boto3,您可以执行以下操作:

import boto3

# create the s3 resource
s3 = boto3.resource('s3')

# get the file object
obj = s3.Object('bucket_name', 'key')

# read the file contents in memory
file_contents = obj.get()["Body"].read()

# print the occurrences of the new line character to get the number of lines
print file_contents.count('\n')

如果要对存储桶中的所有对象执行此操作,可以使用以下代码段:

bucket = s3.Bucket('bucket_name')
for obj in bucket.objects.all():
    file_contents = obj.get()["Body"].read()
    print file_contents.count('\n')

以下是对boto3文档的更多功能参考:http://boto3.readthedocs.io/en/latest/reference/services/s3.html#object

更新:(使用boto 2)

import boto
s3 = boto.connect_s3()  # establish connection
bucket = s3.get_bucket('bucket_name')  # get bucket

for key in bucket.list(prefix='key'):  # list objects at a given prefix
    file_contents = key.get_contents_as_string()  # get file contents
    print file_contents.count('\n')  # print the occurrences of the new line character to get the number of lines

答案 1 :(得分:0)

Amazon S3只是一种存储服务。您必须获取该文件才能对其执行操作(例如,读取文件数)。

答案 2 :(得分:0)

您可以使用boto3 list_objects_v2循环播放存储桶。由于list_objects_v2仅列出最多1000个键(即使您指定了MaxKeys),因此您必须在响应词典中存在NextContinuationToken,然后指定ContinuationToken以阅读下一页。

我在一些答案中编写了示例代码,但我不记得了。

然后使用get_object()读取文件,并使用simple line count code

(更新) 如果您需要特定前缀名称的密钥,则添加PREFIX过滤器。

答案 3 :(得分:0)

有时将大文件读取到内存并不理想。相反,您可能会发现以下更多用途:

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucketname', Key=fileKey)


nlines = 0
for _ in obj['Body'].iter_lines(): nlines+=1

print (nlines)