我想提取postscript图像文件中包含的文本信息(我的轴标签的标题)。 这些图像是用pgplot生成的。我在Ubuntu上尝试过ps2ascii和ps2txt,但它们没有产生任何有用的结果。有谁知道另一种方法?
由于
答案 0 :(得分:6)
pgplot可能直接用行而不是文本绘制文本中的字体。特别是因为pgplot设计用于输出大量设备,包括你必须这样做的绘图仪。
编辑:
如果你有足够的情节值得 努力比一个非常简单 图像处理任务。转换每个 页面到像tiff,单声道的东西 chrome将图像阈值阈值化为二进制, 文本将是最大像素值。
使用模板匹配技术。 如果你有一套有限的 可能的标签然后匹配 整个标签,你甚至可以开始 使用正确大小的模板 和旋转。然后只标记每个 绘图包含标签[1-n],没有 需要阅读实际文本。
如果你 那么你不知道标签 只是,相当容易地做OCR 提取轴周围的区域, 将其旋转为垂直 - 并使用 Google的免费OCR库
如果你有pgplot,你甚至可以 为OCR建立训练集 模板图像直接相反 而不是从中收获它们 图像列表