如何提高OCR准确性?

时间:2020-02-21 11:43:21

标签: ocr tesseract python-tesseract

我有2张图片,如下所示。 tesseract可以完美地读取A.png,但是即使B.png与A.png相似,B.png的准确性也非常差。如何提高准确性?我不知道从哪里开始调试?

  • A.png

enter image description here

  • B.png

enter image description here

  • 运行OCR
# tesseract -v
tesseract 4.1.1-rc2-22-g08899
# tesseract A.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
第 3 期 決算 公告 令 和 2 年 2 月 7 日
大 阪 市 中 央 区 南 新町 一 丁目 3 番 10 号
株 式 会 社 Link_Mobile

代表 取締 役 佐々 木 勉

貸借 対照 表 の 要旨 (平成 31 年 3 月 31 日 現在 }
# tesseract B.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
。 人 加計
区 三 6 番 12 号
中 野 駅 前 ビル 5 | 、
am 人 mw
に て
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 }

更新1

是否都使用相同的扫描仪以相同的分辨率进行扫描?

是的。原来包含在同一PDF中的图像被剪切掉了。

您是否利用Tesseract公开的任何API在进行OCR之前对图像进行预处理?

不。我不知道。我现在正在检查。

1 个答案:

答案 0 :(得分:2)

它有所改善。我读了“ Tesseract documentation”并重新缩放了图像。

重新缩放 Tesseract在DPI至少为300 dpi的图像上效果最佳,因此调整图像尺寸可能会有所帮助。有关更多信息,请参见FAQ。

  • 缩放后的图像

enter image description here

  • 运行OCR
# tesseract B2.png stdout -l jpn --psm 6
第 54 期 決 算 公 告 _ 令 和 2 年 1 月 29 日
東京 都 中 野 区 中 野 三 丁目 36 番 12 号
中 野 駅 前 ビル 5 F
株 式 会 社 コ ー エ ー テ クニ カ
代表 取締 役 小 空 _ 修
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 )