Question

我正在开展一个项目，我计划使用tesseract OCR从给定图像中提取文本。当我提供单色图像时，Tesseract没有太多问题。

然而，彩色图像是完全不同的场景。我从中得到了大部分乱码文本。所以我想到将图像转换为单色，然后将其传递给Tesseract。不幸的是，我的转换努力没有取得任何令人满意的结果。

图像被转换为单色，但文字却以某种方式被搞砸了（不能想到一个合适的单词）。 即使我无法正确阅读文本，我怎么能期望该程序？

所以我面临的主要问题是，如何在Java中将彩色图像转换为单色，而文本没有拧紧（再次）。

我们的项目在Linux服务器上运行，所以如果有任何脚本或其他程序，我可以从Java调用并获得结果也没关系。但我更喜欢Java。

这是我的代码：

 @Override
    public void testOcr() {
        ITesseract instance = new Tesseract();
        File imageFile = new File("/home/username/other.jpg");
BufferedImage img = null;
            img = ImageIO.read(imageFile);

            BufferedImage blackNWhite = new BufferedImage(img.getWidth(),img.getHeight(),BufferedImage.TYPE_BYTE_BINARY);
            Graphics2D graphics = blackNWhite.createGraphics();
            graphics.drawImage(img, 0, 0, null);
            File outputfile = new File("/home/username/other1.jpg");
            ImageIO.write(blackNWhite, "jpg", outputfile);
   instance.setDatapath("/usr/share/tesseract-ocr/");
            // ISO 693-3 standard
            instance.setLanguage("deu");
            String result = instance.doOCR(outputfile);
            System.out.println(result);
}

两张图片：

转换图片：

以下是我从Tesseract上面找到的内容：

90/(/a —’Ä(l/énÄ ' ß(l(1(»m]«u
„„ „‚„„„ „ „„ „„ „‚„„„ „„ n 00 w—v „„„ s 3 na
‘„‘‚';‚ J‘;;Mt:.‘ *‘ “ ‘„*;;131:„'r„‘:1 „ . A „„ „„ _ «3 uu
„„ „.„„„\ „„ „„ uu „„„„\„..\ ; 5 oo “ ‘ " "' ‘* ‘=* —“ "°
„...„.„„. „‘ ‘„‘ „„ „„-„..„‚„„‚» <b(m
„..„„„„.‘ \ „„-„‚„„„„„k („m
„„„\„„„„ muu ‚„„„„„‚ s»’ou
m M 6«»//%
' ‚ , \ ‚“ _ „„ sKUD
:> 3 — „».>' ' z«„„«.„«„„„ <3(m
' ‘)\‚ia "‚ “ l’ ‚„„„.„„\_ „rm
.„.‚\ ‚ . \. .
‘. ‚„.‚.A _ \ „ „ "*°‘Ä‘ „„w„„m„»v.. mm
; ‚ \ :« ‘ 4 ‚ _.
»"9 » @ We have Spema\smr
' Lunch & D\nner ew3rydav
' ßm/n'/ ‚0(*JJP1/'
V\S\\ Cur '<’e3\au\an\ ’
?“"‘:‘“1“1C1„ 55"" ::‘‚:J:'.J‘.‘t‘:‘;1f:.1?t„ ““ Fur6'2a:'z:‘e '
..„„.‘„‚„.„„‘„..„ ‘ s7uu x.„„.„„..„.‘<h„.„„„ ;7uu Eng\gnCp -
5::r‘Ja‘.‘7r“x:1f‘."‘3:l'_„„ ““ ‘°°° @ us ‘
„.„..„‚„ „„„‚„‚ „ uu m.„„„< „„„„ sB 00 \23‚g5f„ 78% .L
—

所以，关于如何即兴阅读彩色图像的任何建议。谢谢。

Answer 1

您可以使用OpenCV进行二值化。但;如果你想要这个例子的正确结果，teserract仍然需要调整大小。

此订单应该可以正常工作。

其他图像处理操作（去噪，去歪斜，不锐化，裁剪，边框）
调整图片大小
二值化图像
OCR

Java：将彩色图像转换为单色并保持文本可读

1 个答案: