我有数百万张图像,我可以使用带有pytesseract的OCR来执行下降文本提取,但处理所有图像需要很长时间。
因此,我想确定一个图像是否只包含文本,如果它不是,我就不必对它进行OCR。理想情况下,这种方法会有很高的召回率。
我正在考虑构建一个SVM或一些机器学习模型以帮助检测,但我希望是否有任何新方法可以快速确定某个对象是否包含文本。
答案 0 :(得分:1)
不幸的是,没有办法判断图像中是否有文字,而没有在其上执行某种类型的OCR。
您可以构建一个处理此问题的机器学习模型,但请记住,它仍然需要处理图像。