如何在AWS S3存储桶中查找重复文件?

时间:2016-05-06 03:38:17

标签: linux amazon-web-services amazon-s3 amazon-ec2 duplicates

有没有办法在Amazon S3存储桶中递归查找重复文件?在普通的文件系统中,我只想使用:

fdupes -r /my/directory

3 个答案:

答案 0 :(得分:8)

没有"发现重复"在Amazon S3中执行命令。

但是,您确实执行了以下操作:

  • 在存储桶中检索对象列表
  • 查找相同 ImageView(校验和)和<LinearLayout android:layout_width="match_parent" android:layout_height="wrap_content" android:layout_centerInParent="true" android:gravity="left"> <ImageView android:id="@+id/menu_item_icon" android:layout_width="32dp" android:layout_height="32dp" android:layout_marginLeft="50dp"
  • 的对象

他们(极有可能)是重复的对象。

答案 1 :(得分:4)

这是一个git存储库:https://github.com/chilts/node-awssum-scripts,它有一个js脚本文件,用于查找S3存储桶中的重复项。我知道,指向外部来源推荐,但我希望它可以帮到你。

答案 2 :(得分:0)

import boto3
s3client = boto3.client('s3',aws_access_key_id=ACCESS_KEY,aws_secret_access_key=SECRET_KEY,region_name=region)
etag = s3client.head_object(Bucket='myBucket',Key='index.html')['ResponseMetadata']['HTTPHeaders']['etag']
print(etag)