Question

我正在尝试将扫描的图像从 tesseract ocr 转换为文本，并且效果很好，除了我的图像中包含两种语言而且 tesseract 无法同时检测两者。我可以将所有图像都转换为英语（阿拉伯语显示为某些垃圾值，而不是罗马阿拉伯语），反之亦然，如果我将其转换为阿拉伯语（也就是说，我将所有文本都转换为阿拉伯语，则将英语文本作为“垃圾”）

我试图用langDetect检测导出的文本，但是鉴于字符和ASCII是英文字母，所以我无法检测到它。

我正在分享image here的示例，如果有人可以帮助我更好地解决此问题，那将是很好的。

Answer 1

只需更新此代码

lang = 'eng+ara'

ara代表ara.traineddata。

另一件事：阿拉伯语培训数据可能不在tesseract中，因此请从git下载ara.traineddata并将其粘贴到tesseract ocr的tessdata文件夹中。

我还为您提供了此训练数据的链接：link。

有没有一种方法可以从扫描的图像中检测多种语言？

1 个答案: