压缩数字化文档图像

时间:2010-06-02 23:37:38

标签: image-processing compression data-storage

法律要求我们将公司的所有财务文件数字化,并每3个月提交一次评估。

由于这是敏感数据,我们决定自己动手并构建某种数字数据存档。该工具运行良好,但使用7个月后,我们开始担心这些图像使用的磁盘空间。

这里有一些关于数字化文件数量的信息:

  • 每天扫描和存档15K文件,最终PNG大小为+ - 860KB:15 000 * 860千比特= 1.53779984千兆字节
  • 每月工作30天:1.53779984千兆字节* 30 = 46.1339952千兆字节
  • 1年后对磁盘空间使用的期望:46.1339952千兆字节* 12 = 553.607942千兆字节

到目前为止,我们使用的磁盘空间为424千兆字节,无需计算备份。我们使用PNG作为图像格式,但我想知道是否有人对更好的图像压缩算法或压缩PNG的替代策略有任何建议,甚至更好或更好的方法来存档图像以节省磁盘空间。 / p>

任何帮助都将不胜感激,谢谢。

3 个答案:

答案 0 :(得分:3)

您最好使用DjVu,这是一种专为压缩扫描文档而设计的相对较新的格式。它适用于双色调,灰度和彩色文档。它将前景/背景分离与复杂的小波压缩方案相结合。如果您获得商业版本,我相信您也可以将文档OCR,以便您可以搜索它们,但有一个完全开源的版本称为DjVuLibre

答案 1 :(得分:2)

据推测,这些文件不需要一直在线。如果是这种情况,根据您提供的信息,我看不出您需要更改工作流程的任何理由。

PNG是一种广泛支持的格式,具有无损(zlib)压缩,我猜你正在使用它。如果您不需要无损压缩,只要您适当调整压缩率,优质的ole JPEG将以较小的质量损失为代价提供更紧密的压缩。 JPEG2000可能是另一种选择,具体取决于您的软件堆栈。除了每像素16位支持之外,LZW压缩的TIFF没有比PNG更大的优势,您可能不需要它。其他选项包括专有的专业编解码器(如MrSID)​​,可以为价格提供非常好的超大文件压缩。

由于这些是扫描文档,我想我会认为PDF是编码它们的“自然”格式。 PDF根据文件的内容提供各种压缩选项。但我不会煞费苦心地修复一些没有破坏的东西。

如果你想一下你现在在驱动器空间上花了多少钱,那么每天1.5 GB就没什么了。驱动器空间便宜且不断变得更便宜。只需每6个月购买三个新的1 TB USB驱动器(主/备用/异地备份),总成本为240美元或者其他任何东西。即使是磁带备份也不合理。

答案 2 :(得分:0)

每年500 Gb并不多,硬盘每年都在变得越来越便宜