我想知道在Amazon S3中实现重复数据删除(单实例存储)文件存储的最佳方法。例如,如果我有3个相同的文件,我只想存储一次文件。有没有图书馆,API或程序来帮助实现这个?这个功能本身存在于S3中吗?也许是检查文件哈希等的东西
我想知道人们用什么方法来实现这个目标。
答案 0 :(得分:5)
你可能会推出自己的解决方案来做到这一点。有点像:
上传文件:
上传后续文件:
阅读文件:
您还可以通过上传固定大小的块中的文件来提高此技术的效率 - 并且如上所述,在块级而不是完整文件级别上进行重复数据删除。然后,虚拟文件系统中的每个文件都包含一个或多个哈希值,表示该文件的块链。这也有一个好处,即上传一个与之前上传的另一个文件略有不同的大文件,可以减少存储和数据传输。