我需要从网站获取图像并在Ruby中解析文本。
图像非常简单,它们只是以图片形式表示的数字:
http://www.telelistas.net/ImgFactory.ashx?t=6A7B&s=0
使用此示例,我想将此图片转换为文本“56”。
答案 0 :(得分:2)
你需要的是做OCR的事情。外观https://github.com/dannnylo/rtesseract非常有前景。您可以将图像转换为如下文本:
image = RTesseract.new("my_image.jpg")
image.to_s #Getting the value
答案 1 :(得分:1)
从URL加载意味着基于云的基于Web的OCR服务,例如www.OCR-IT.com。其他基于Web的服务也应该能够从URL打开。或者,如果您有兴趣开发自己的OCR转换工具,例如使用Tesseract,那么很可能会从URL'开放。功能需要单独添加,这是可行的。最终,运行您自己的OCR意味着在对流程透明的某个点上将图像下载到本地存储。考虑到某些图像预处理是必要的,这不是一个糟糕的选择。
除此之外,您的图像样本存在一些问题,这会影响任何OCR系统:
例如,ABBYY FineReader 8.0桌面应用程序(世界上最好的商业OCR)无法以原样的形式从您的样本中提取文本。