在我的工作地点,我们有一个遗留的文档管理系统,由于各种原因现在开发人员不支持。我被要求研究提取本系统中包含的文件,最终导入新的第三方系统。
从跟踪和进程监控我已经确定文档图像(主要是tiff文件)存储在许多1.5GB文件中。这些文件似乎是从特定的偏移量读取,然后写入tmp文件,然后通过Web应用程序提供给客户端,然后删除。
我想我正在寻找关于如何检查包含tiff图像的大文件的建议,并最终提取并将它们写入单个文件。
答案 0 :(得分:1)
TIFF是否以某种方式压缩?如果没有,那么你的工作可能很简单:从1.5G文件中将TIFF拼接在一起。
您能看到特定1.5G文件(或其中一系列)的输出吗?如果是这样,那么你应该能够将该TIFF的字节应该是什么样的,如果它是未压缩的。
如果字节看起来不存在,那么尝试一些标准压缩(zip,tar等)以查看是否匹配。
答案 1 :(得分:0)
我打开一个文件,寻找所需的偏移量,然后流入一个tiff对象(理想情况下是支持从内存或文件流式传输的对象)。然后你就明白了。在其他一些位上徘徊,因为可能有关该文档的元数据可能对下一个系统有用。