pdf - 正确从 PDF 中提取图像

正确从 PDF 中提取图像

时间：2021-02-19 07:38:12

标签： pdf itext pdfsharp

我有一个 PDF 文件，其中包含成功显示此图像的图像。当我尝试使用 itextsharp 或 pdfsharp libs 从 PDF 文件中提取图像时，我得到字节，然后成功解码它们（因为那里有 /Filter/FlateDecode）。但是当我尝试使用不同的库将这些字节转换为图像时，发生了异常（看起来这些字节实际上不是图像）。据我了解问题是处理这些字节，但 Pdf 中的图像没有损坏，因为它在那里正确显示。 PDF is here.

1 个答案:

答案 0 :(得分：0)

图像很可能以 PDF 规范中记录的 PDF 图像格式存储。

将它们转换为 Windows BMP 格式相当简单。但是您仍然必须转换它们并添加带有来自 PDF 文件的图像属性的特定信息的标题。
在 PDF 中，新的图像行是字节对齐的，在 Windows BMP 中，它是 DWORD 对齐的。
如果有颜色表不要忘记提取。

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？