我在这张图片上尝试了tesseract,并在矩形内部扫描了一些文字。但它每次都以一些垃圾文本作为输出失败。并纠正文本周围没有框。请告诉我如何处理图像或tesseract?请帮忙
答案 0 :(得分:0)
Tesseract在分类之前将图像转换为灰度,因此粉红色的线条可能会被拾取为文本。
仅从图像中提取黑色像素,你应该没问题。您可以使用ImageMagick。
答案 1 :(得分:0)
如前所述,在进行OCR之前你应该摆脱粉红色的线条(它们仍然有用 作为角色边界虽然)
一旦你发现你的gliph并将它们二进制化(转换为位图),你就可以开始了 使用tesseract就可以了。请记住,tesseract使用形状提取方法并依赖于字典支持 - 您可能会获得更好的结果(以及更快的处理时间)以及像Hu这样的不变时刻
如果您对java基本方法感兴趣,这里是我们的OCR库在纯java中执行此操作(可以移植到其他语言):