应用错误收集

如果图像包含文本，则快速分类

时间：2018-03-30 14:47:41

标签： python classification ocr tesseract text-extraction

我有数百万张图像，我可以使用带有pytesseract的OCR来执行下降文本提取，但处理所有图像需要很长时间。

因此，我想确定一个图像是否只包含文本，如果它不是，我就不必对它进行OCR。理想情况下，这种方法会有很高的召回率。

我正在考虑构建一个SVM或一些机器学习模型以帮助检测，但我希望是否有任何新方法可以快速确定某个对象是否包含文本。

1 个答案:

答案 0 :(得分：1)

不幸的是，没有办法判断图像中是否有文字，而没有在其上执行某种类型的OCR。

您可以构建一个处理此问题的机器学习模型，但请记住，它仍然需要处理图像。