有没有办法从postscript文件中提取文本信息? (.ps .eps)

时间:2011-02-08 15:03:17

标签: python image text postscript

我想提取postscript图像文件中包含的文本信息(我的轴标签的标题)。 这些图像是用pgplot生成的。我在Ubuntu上尝试过ps2ascii和ps2txt,但它们没有产生任何有用的结果。有谁知道另一种方法?

由于

1 个答案:

答案 0 :(得分:6)

pgplot可能直接用行而不是文本绘制文本中的字体。特别是因为pgplot设计用于输出大量设备,包括你必须这样做的绘图仪。

编辑:

如果你有足够的情节值得     努力比一个非常简单     图像处理任务。转换每个     页面到像tiff,单声道的东西     chrome将图像阈值阈值化为二进制,     文本将是最大像素值。

使用模板匹配技术。     如果你有一套有限的     可能的标签然后匹配     整个标签,你甚至可以开始     使用正确大小的模板     和旋转。然后只标记每个     绘图包含标签[1-n],没有     需要阅读实际文本。

如果你     那么你不知道标签     只是,相当容易地做OCR     提取轴周围的区域,     将其旋转为垂直 - 并使用     Google的免费OCR库

如果你有pgplot,你甚至可以     为OCR建立训练集     模板图像直接相反     而不是从中收获它们     图像列表