对于owncloud(或nextcloud)项目,我们需要添加大量存储空间,我已经检查了所有选项,例如:CEPH,Openstack Swift / Cinder,GlusterFS,SDFS和Tahoe-lafs。
通过这项服务,我们希望用户可以添加许多相同的文件,这就是重复数据删除对我们来说非常重要的原因。到目前为止,集群存储数据重复数据删除的唯一解决方案是SDFS和Tahoe-lafs。但是我们担心的是这两个是Java和Python,会对CPU造成太大伤害。 (*是重复数据删除可能意味着更多的RAM和CPU)
也许你们中的一个人有更好的解决方案? *重复数据删除文件系统(例如ZSF)将无法正常工作,因为数据存储在多台计算机上(HA群集)。
答案 0 :(得分:0)
这不是我认为您正在寻找的完整解决方案,而是Node.js的开源重复数据删除库,其中包含用C ++编写的本机绑定和用Javascript编写的参考实现:
https://github.com/ronomon/deduplication
如果您可以使用LSM-Tree支持的KV商店自己实现索引,那么它应该足够快。