有没有一种方法可以从扫描的图像中检测多种语言?

时间:2019-11-17 00:10:35

标签: python ocr tesseract

我正在尝试将扫描的图像从 tesseract ocr 转换为文本,并且效果很好,除了我的图像中包含两种语言而且 tesseract 无法同时检测两者。我可以将所有图像都转换为英语(阿拉伯语显示为某些垃圾值,而不是罗马阿拉伯语),反之亦然,如果我将其转换为阿拉伯语(也就是说,我将所有文本都转换为阿拉伯语,则将英语文本作为“垃圾”)

我试图用langDetect检测导出的文本,但是鉴于字符和ASCII是英文字母,所以我无法检测到它。

我正在分享image here的示例,如果有人可以帮助我更好地解决此问题,那将是很好的。

1 个答案:

答案 0 :(得分:0)

只需更新此代码

lang = 'eng+ara'

ara代表ara.traineddata

另一件事:阿拉伯语培训数据可能不在tesseract中,因此请从git下载ara.traineddata并将其粘贴到tesseract ocr的tessdata文件夹中。

我还为您提供了此训练数据的链接:link