我正在使用tesseract从图像中提取文本。但是,我遇到了一些问题:
从下图中可以很好地提取文字:
但是,文本不是从下面的图像中提取的,请注意文本周围的方块现在较小
问题
我可以对原始图像做些什么来更好地从第二张图像中提取文本。我已经在制作图像BW usint imagemagick的-monochrome
过滤器了。
在图像中我不关心文本。有没有一种技术可以用来裁剪图像并创建一个只有白色背景和文字的新图像?我不会总是知道方形圆的坐标,所以我需要一个能够自动检测白色背景坐标的裁剪功能。