Question

我想使用tesseract引擎将图像转换为文本。输入图像有两种语言（波斯语和英语）。当我使用tesseract多语言功能（fas + eng）时，转换后的文本有很多错误。例如：

输出：

BERT Jooواستفادهازآن 大约7个月前11个月前的所有数据 آنرابرایتحلیلمتنتوضیحمی‌دهیم。

我应该用波斯语和英语文本训练模型吗？

Answer 1

您必须更新到最新版本的 tesseract 或 fas 训练数据。

我使用这个版本的tesseract：

# tesseract.exe --version
tesseract v5.0.0-alpha.20191030
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX
 Found SSE
 Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5

而且我也使用这个提交版本来处理快速列车数据：
https://github.com/tesseract-ocr/tessdata/blob/cdd8a9ec438fc0b9f21635466196fe1c05efca16/fas.traineddata

我使用这个命令：

tesseract.exe image.png out -l fas+eng

正如您在此处看到的，我们有正确的文本：

مدل ‎BERT‏ و استفاده از آن
در این گزارش به تعریف مفاهیم مورد نیاز برای شناخت مدل ‎BERT‏ می‌پردازيم و نحوه استفاده از

آن را برای تحلیل متن توضیح می‌دهیم.

另见这张图片：

tesseract 4.1.1中是否有解决混合语言问题的解决方案？

1 个答案: