用于Python3x的Tesseract-OCR模块的安装错误

时间:2015-01-23 14:09:20

标签: linux python-3.x ocr python-tesseract

我想在python-3.4中使用tesseract-ocr lib。我用" sudo apt-get install tesseract-ocr"下载tesseract。现在我可以在命令行使用它。 但我想用它与python3。但我无法找到任何使用python3x本地tesseract的教程。

实际上我试图使用像pytesseract这样的包装器。我从https://code.google.com/p/python-tesseract/wiki/Python3Tesseract下载并使用dpkg安装它。我试图导入它,但我得到一个奇怪的错误。

错误信息是;
" ImportError:/usr/lib/python3/dist-packages/_tesseract.cpython-34m-x86_64-linux-gnu.so:undefined symbol:_Z11GetUTF8TextPN9tesseract11TessBaseAPIE"

我为python3x尝试了tesserPy包装器。这对土耳其语,英语有用,但对阿拉伯语不起作用。 (我为那些语言测试了tesserpy。) 你可以从那个地址得到tesserpy; https://github.com/blindsightcorp/tesserpy

这是我运行tesserpy for arabic language时的错误消息;

tessdata_manager.SeekToStart(TESSDATA_INTTEMP):错误:断言失败:在文件adaptmatch.cpp中,第511行

以前有人看到过这种错误信息吗?

提前致谢

1 个答案:

答案 0 :(得分:0)

我今天编辑了我的问题,我告诉我可以使用tesserpy为英语和土耳其语言制作ocr。最有可能tesserpy适用于所有语言。 但我还是有问题。我无法为阿拉伯语脚本运行tesserpy。所以我继续搜索并找到了pyocr。它也适用于阿拉伯语脚本。您可以从git轻松克隆和使用它;

PyOcr github repository

我希望这个问题能引导某人。