当我使用-l eng+rus
(或-l rus+eng
)调用tesseract时,会得到以下结果:
Повар спрашивает повара - 200 ВОВ!
如您所见,文本的俄语部分被认为可以,但RUB的部分是错误的,因为据我所知,Tesseract认为这是俄语文本。尽管BOB
单词的置信度仅为34,但看起来Tesseract并未尝试使用英语。除了将文本分成两组并分别在它们上运行Tesseract之外,是否还有其他解决方法? (我知道第二部分始终是英语,但第一部分可以是英语或俄语)。
P.S我尝试使用西里尔语脚本训练数据(Cyrillic.traineddata),但结果几乎相同(Повар спрашивает повара - 200 ВЏВ!
)
答案 0 :(得分:0)
尽管您使用正确的语法进行多语言识别,但结果清楚地表明“ BOB”被错误分类。您要做一件事,首先仅在英语模式下运行此文本并查看结果,它很可能会将BOB读为正确的文本。然后,在此检查之后,更改用于英语文本识别的默认模型。希望它将做出相同的调整。如果不是这样,那么您将不得不忍受这些结果,因为tesseract并未获得100%的结果。