法律要求我们将公司的所有财务文件数字化,并每3个月提交一次评估。
由于这是敏感数据,我们决定自己动手并构建某种数字数据存档。该工具运行良好,但使用7个月后,我们开始担心这些图像使用的磁盘空间。
这里有一些关于数字化文件数量的信息:
到目前为止,我们使用的磁盘空间为424千兆字节,无需计算备份。我们使用PNG作为图像格式,但我想知道是否有人对更好的图像压缩算法或压缩PNG的替代策略有任何建议,甚至更好或更好的方法来存档图像以节省磁盘空间。 / p>
任何帮助都将不胜感激,谢谢。
答案 0 :(得分:3)
您最好使用DjVu,这是一种专为压缩扫描文档而设计的相对较新的格式。它适用于双色调,灰度和彩色文档。它将前景/背景分离与复杂的小波压缩方案相结合。如果您获得商业版本,我相信您也可以将文档OCR,以便您可以搜索它们,但有一个完全开源的版本称为DjVuLibre。
答案 1 :(得分:2)
据推测,这些文件不需要一直在线。如果是这种情况,根据您提供的信息,我看不出您需要更改工作流程的任何理由。
PNG是一种广泛支持的格式,具有无损(zlib)压缩,我猜你正在使用它。如果您不需要无损压缩,只要您适当调整压缩率,优质的ole JPEG将以较小的质量损失为代价提供更紧密的压缩。 JPEG2000可能是另一种选择,具体取决于您的软件堆栈。除了每像素16位支持之外,LZW压缩的TIFF没有比PNG更大的优势,您可能不需要它。其他选项包括专有的专业编解码器(如MrSID),可以为价格提供非常好的超大文件压缩。
由于这些是扫描文档,我想我会认为PDF是编码它们的“自然”格式。 PDF根据文件的内容提供各种压缩选项。但我不会煞费苦心地修复一些没有破坏的东西。
如果你想一下你现在在驱动器空间上花了多少钱,那么每天1.5 GB就没什么了。驱动器空间便宜且不断变得更便宜。只需每6个月购买三个新的1 TB USB驱动器(主/备用/异地备份),总成本为240美元或者其他任何东西。即使是磁带备份也不合理。
答案 2 :(得分:0)
每年500 Gb并不多,硬盘每年都在变得越来越便宜