Question

我必须分析一个包含英文和日文文本的图像。当我默认运行tesseract（eng）时，一些日文字符丢失了。否则，如果我用japanese（-l jpn）运行tesseract，一些英文字符会丢失（例如电子邮件）。如何运行一个识别英文和日文字符的过程。感谢。

Answer 1

从tesseract 3.02开始，可以为-l参数指定多种语言。

-l lang要使用的语言。如果未指定，则假定为英语。可以指定多种语言，用加号字符分隔。 Tesseract使用3个字符的ISO 639-2语言代码。

一个例子：

tesseract myscan.png out -l deu+eng

Answer 2

尝试一下：

custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)

from langdetect import detect_langs
detect_langs(txt)

注意：您必须使用以下命令安装langdetect：

 pip install langdetect

Tesseract：如何一次运行多种语言的tesseract

2 个答案: