用于读取图像内部文本的最佳Python / Ruby库

时间:2012-07-15 07:15:42

标签: algorithm matlab image-processing opencv ocr

任何人都知道python / ruby​​中的库可以分析图像并提取文本吗?

或者有关图像处理等的书......

PS:文本采用varius字体和格式,但清晰,Tl; Dr:No captcha或类似。

1 个答案:

答案 0 :(得分:15)

您可以使用 OpenCV ,一个开源计算机视觉库,它有Python API。它现在被认为是一个行业标准的图书馆。

OpenCV官方网站http://opencv.org/

如果您需要一些关于OpenCV-Python的教程,请访问:opencvpython.blogspot.com

您还可以查看此SOF:Simple Digit Recognition OCR in OpenCV-Python

除此之外,OpenCV示例还有一些OCR实现。

但我建议您使用 Tesseract for OCR 。它是惠普开发的最好的开源OCR引擎,现在由谷歌处理。

Tesseract网站https://github.com/tesseract-ocr/tesseract

tesseract的Python API, Pytesser https://github.com/RobinDavid/Pytesser

同时检查此SOF:How do I choose between Tesseract and OpenCV?

因此,您可以使用OpenCV预处理图像并使用Tesseract进行OCR。