任何人都知道python / ruby中的库可以分析图像并提取文本吗?
或者有关图像处理等的书......
PS:文本采用varius字体和格式,但清晰,Tl; Dr:No captcha或类似。
答案 0 :(得分:15)
您可以使用 OpenCV ,一个开源计算机视觉库,它有Python API。它现在被认为是一个行业标准的图书馆。
OpenCV官方网站:http://opencv.org/
如果您需要一些关于OpenCV-Python的教程,请访问:opencvpython.blogspot.com
您还可以查看此SOF:Simple Digit Recognition OCR in OpenCV-Python
除此之外,OpenCV示例还有一些OCR实现。
但我建议您使用 Tesseract for OCR 。它是惠普开发的最好的开源OCR引擎,现在由谷歌处理。
Tesseract网站:https://github.com/tesseract-ocr/tesseract
tesseract的Python API, Pytesser :https://github.com/RobinDavid/Pytesser
同时检查此SOF:How do I choose between Tesseract and OpenCV?
因此,您可以使用OpenCV预处理图像并使用Tesseract进行OCR。