标签: text image-processing ocr
我不想知道它说的是什么,它不会像CAPTCHA那样处理任何失真,我只是想知道图像的束是否包含任何文本。 />
这将在几个空闲的Linux服务器上运行,而cron作业将每天多次处理大量图像。
我想在此过程中做的一件事就是丢弃任何带有文字的图片。我不介意一些误报,但我想在识别带有文本的图像时尽可能接近零百分率的失败率。
答案 0 :(得分:2)
谷歌用于谷歌图书的Tesseract-OCR。试一试。