Tesseract:如何一次运行多种语言的tesseract

时间:2014-06-24 06:31:02

标签: image-processing ocr tesseract

我必须分析一个包含英文和日文文本的图像。当我默认运行tesseract(eng)时,一些日文字符丢失了。否则,如果我用japanese(-l jpn)运行tesseract,一些英文字符会丢失(例如电子邮件)。 如何运行一个识别英文和日文字符的过程。 感谢。

2 个答案:

答案 0 :(得分:27)

从tesseract 3.02开始,可以为-l参数指定多种语言。

  

-l lang要使用的语言。如果未指定,则假定为英语。可以指定多种语言,用加号字符分隔。   Tesseract使用3个字符的ISO 639-2语言代码。

一个例子:

tesseract myscan.png out -l deu+eng

答案 1 :(得分:1)

尝试一下:

custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)

from langdetect import detect_langs
detect_langs(txt)

注意:您必须使用以下命令安装langdetect:

 pip install langdetect