电子邮件存储的重复数据删除建议

时间:2012-01-25 14:57:38

标签: email storage deduplication

建议的存储模型是将附件存储在单独的文件(或blob)中,并将电子邮件本身存储为MIME多部分邮件,引用附加文件及其编码方式。这允许用户显示原始,但不要求我实际存储效率较低的base64和消息。大多数情况下,我只能存储使用的base64行长度。

这样,我们就可以执行附件级重复数据删除。

但重复数据删除如何进一步发展?以下是我的想法:

  • 当然,所有附件和电子邮件都可以单独压缩(字节级重复数据删除)。
  • 我可以将一组12个附件压缩在一个文件中。压缩相同类型的多个文件(例如,PDF),甚至来自同一发件人的文件可能更有效。
  • MIME消息也可以成套压缩。
  • 我不关心搜索效率,因为会使用全文索引。
  • 搜索电子邮件当然会使用一种不会被压缩的全文索引。
  • 当电子邮件首次到达时,将创建解压缩的缓存,并且只会在电子邮件暂时未被查看后删除。

您对此领域有什么建议吗?电子邮件存储系统的正常情况是什么?

0 个答案:

没有答案