在python中从图像中提取希伯来语文本

时间:2018-07-17 05:01:38

标签: python computer-vision ocr hebrew python-tesseract

我想从图像中提取希伯来文字。

我尝试过使用pytesseract,但是它使一些字母感到困惑(例如,用'代替י或נ代替כ)

我尝试对图像进行一些操作(例如调整大小,消除噪点和二值化),虽然有一些帮助,但仍然存在很多错误。

我花了数小时寻找更好的文本提取工具,但找不到。

这是我的问题:

A)有没有我可以错过的工具?

B)如果没有,创建我自己的步骤是什么?

预先感谢, 阿米猜

1 个答案:

答案 0 :(得分:1)

选择正确的OCR可能很困难,但是您似乎已经步入正轨(如this Stackoverflow帖子中所示)。

通常,如果您对Tesseract的质量不满意,那么您似乎(主要是)不走运;从我阅读的内容来看,似乎在 OCROpus,尽管这似乎不如PyTesseract方法简单。
另外,更深入地研究GitHub repository of Tesseract可以发现,正在积极开发基于LSTM的4.0版本,可能可以为您带来更好的结果。我尚不完全了解PyTesseract所使用的Tesseract版本,但可能值得研究,因为替换Tesseract比在一个全新的环境中容易。

PS:至于“如何建立自己的OCR”这个问题,我强烈建议不要这样做。仅收集所有数据并正确掌握基础知识将花费您大量的精力,并且通常不值得您花费时间。如果您获得了所有有用的东西,它可能仍会比提供的任何库都差。