从PDF

时间:2016-02-27 12:47:16

标签: image pdf image-processing plot

我们有一个pdf页面,其中包含一个或多个图形,这些图形是实验结果的二维图。这些数字可能会也可能不会嵌入文本中。每个图都有x和y轴,其标签和单位测量标记在图中。每个图中都有一个或多个图,每个图都有不同的颜色。

我们如何将绘图转换为相应x和y值的表格(比如说100点)?

我已经尝试了WebPlotDigitizer,但只有当输入是绘图的独立图片时它才有效。

我认为我需要做的是从PDF中提取图并进一步处理。现在,我无法找到这样做的工具。我附上了sample PDF,必须从中提取地块。

请注意,PDF最后一页中的2个图是图像,可以很容易地提取(我找到了几个软件)。其他图不是图像,软件无法提取它们

是否有可以实现这一目标的开源软件?

2 个答案:

答案 0 :(得分:1)

您提供的此PDF文件中的绘图是使用矢量绘图制作的,因此提取它们的唯一方法是将PDF转换为图像(即渲染页面)。试试https://t.co/JQcG5gk4Cd,看看ImageMagick's convert command line

答案 1 :(得分:0)

由于Photoshop可编写脚本,实际上可以通过编程方式从PDF中提取图像(而不是页面;请参阅Photoshop JavaScript文档)。

然后您可以使用整套仪器来调整图像,以便更容易完成进一步处理(解释)。