tesseract能否接受培训,以识别和处理格式化文件?

时间:2014-12-26 15:06:05

标签: tesseract

我尝试使用一些标准文本图像进行测试。这很棒。我现在可以教tesseract了解文档的格式吗?我的意思是让我们参加邀请卡的婚礼邀请。可能有一个方框,其中可能已经写入了时间和地点。如果说所有婚礼请柬只有三种格式(我想要处理),我可以教会tesseract以某种方式看到这个吗?或者我应该以某种方式“扩展”代码来自己做?

1 个答案:

答案 0 :(得分:1)

据我所知,tesseract不是布局分析中最好的。在我的测试场景中,如果图像包含一些非文本部分(如布局),我会遇到问题。有许多其他商业OCR库或商业产品可用,它们也可以很好地处理布局分析。如果你想使用一个免费的开源库,比如tesseract,我建议把你的程序分成以下部分:

  1. 感兴趣区域的文本检测(仅包含文本的图像部分,也可以是更多子图像)
  2. 将这些图像作为tesseract的输入处理,禁用tesseract中的所有布局分析,并仅将其用于字符识别,
  3. 为此,我将在c ++中使用免费的开源库openCv作为文本检测部分。

    关于您的问题,如果tesseract可以自动检测婚礼卡的类型:

    它可以执行一些布局分析并在之后进行字符检测,但它将对所有类型的图像执行相同的处理。据我所知,只能处理tesseract输入图像和矩形,其中tesseract应该执行ocr,但据我所知,此选项仅在使用带有c ++代码的tesseract时才可用,而不是通过命令行。