正确从 PDF 中提取图像

时间:2021-02-19 07:38:12

标签: pdf itext pdfsharp

我有一个 PDF 文件,其中包含成功显示此图像的图像。当我尝试使用 itextsharp 或 pdfsharp libs 从 PDF 文件中提取图像时,我得到字节,然后成功解码它们(因为那里有 /Filter/FlateDecode)。但是当我尝试使用不同的库将这些字节转换为图像时,发生了异常(看起来这些字节实际上不是图像)。据我了解问题是处理这些字节,但 Pdf 中的图像没有损坏,因为它在那里正确显示。 PDF is here.

1 个答案:

答案 0 :(得分:0)

图像很可能以 PDF 规范中记录的 PDF 图像格式存储。

将它们转换为 Windows BMP 格式相当简单。但是您仍然必须转换它们并添加带有来自 PDF 文件的图像属性的特定信息的标题。
在 PDF 中,新的图像行是字节对齐的,在 Windows BMP 中,它是 DWORD 对齐的。
如果有颜色表不要忘记提取。

相关问题