Ruby - 从URL获取图像并将其转换为文本

时间:2014-09-19 18:39:58

标签: ruby http ocr

我需要从网站获取图像并在Ruby中解析文本。

图像非常简单,它们只是以图片形式表示的数字:

http://www.telelistas.net/ImgFactory.ashx?t=6A7B&s=0

使用此示例,我想将此图片转换为文本“56”。

2 个答案:

答案 0 :(得分:2)

你需要的是做OCR的事情。外观https://github.com/dannnylo/rtesseract非常有前景。您可以将图像转换为如下文本:

image = RTesseract.new("my_image.jpg")
image.to_s #Getting the value

答案 1 :(得分:1)

从URL加载意味着基于云的基于Web的OCR服务,例如www.OCR-IT.com。其他基于Web的服务也应该能够从URL打开。或者,如果您有兴趣开发自己的OCR转换工具,例如使用Tesseract,那么很可能会从URL'开放。功能需要单独添加,这是可行的。最终,运行您自己的OCR意味着在对流程透明的某个点上将图像下载到本地存储。考虑到某些图像预处理是必要的,这不是一个糟糕的选择。

除此之外,您的图像样本存在一些问题,这会影响任何OCR系统:

  • 分辨率太低。你可能需要人为地炸毁决议。
  • 尺寸太小(与上述相关)。您可能需要人为地扩展图片。
  • GIF不是OCR友好格式。
  • 标题中缺少分辨率和元数据,与TIF / PNG / JPG
  • 不同

例如,ABBYY FineReader 8.0桌面应用程序(世界上最好的商业OCR)无法以原样的形式从您的样本中提取文本。