pdfbox可以提取矢量图像吗?

时间:2013-02-13 04:47:52

标签: image pdf ms-word pdfbox xpdf

根据我的理解,

1. .eps format images are vector images.
2. When we draw something in word (like a flowchart) that is stored 
as a vector image.  

我几乎肯定第一个,不确定第二个。如果我错了,请纠正我。

假设这两件事,当乳胶文件(插入.eps图像)或word文件(包含矢量图像)转换为pdf时,图像是否会转换为光栅图像?

另外,我认为PDFBox / xpdf只能从pdf中提取光栅图像(因为它们嵌入为XObjects),而不是矢量图像。这种理解是否正确? stackoverflow中的This question是相关的,但尚未得到答复。

1 个答案:

答案 0 :(得分:3)

您的第1点不正确,eps文件是PostScript程序,它们可能包含矢量信息,文本或图像数据,或上述所有内容。

第2点在PDF中没有“矢量图像”,图像表示位图,因此不能是矢量。

如果将PostScript程序转换为PDF文件,则结果完全取决于您使用的转换程序。通常,矢量将保留为矢量,文本保留为文本。但是,应用程序完全有可能呈现整个PostScript程序并将结果作为图像插入PDF中。

所以第一个问题的答案(“将图像转换成光栅图像”)是“可能,但可能不是”。

我担心我不知道PDFBox / xpdf的功能,但由于矢量集合可能不会被排列为'图像'(它们可以保存为Form XObjects,或Patterns )以任何原子的方式,没有任何明显的方法可以知道何时停止提取。无论如何,你会以什么格式存储结果?