我和一位朋友有兴趣为CV项目培训tesseract-OCR引擎。我们尝试使用一些包装器,如PyTesser和pyocr,但结果目前并不像我们需要的那样准确。因此,我们希望尝试对tesseract进行培训以更好地实现我们的目的(即识别食品标签上的文本),但在安装培训工具时遇到一些问题。
我们尝试了什么:
在Google代码网站上,'Compiling' page on the tesseract's google code wiki表示培训工具仅适用于3.03版。但是,谷歌代码'下载' tesseract-ocr的页面只有3.02的材料。编译的底部是'页面上还有一些关于在Windows和OSX上安装3.03版本的评论,但对Linux用户还没有评论。
似乎还有某种3.03 source package for Ubuntu,但我们不确定如何在我们的计算机上访问它并且编译'页面说我们需要运行这些命令:
make training
sudo make training-install
我们还发现google group thread有关tesseract 3.03的信息,但似乎这些帖子似乎不包括Linux用户的建议(除非我们在初次阅读时遗漏了一些内容)。
这实际上是一个非常简单的命令行安装问题吗?或者,有没有一种方法可以使用3.02(我们目前已安装)?我们一直在寻找错误的信息吗?
任何建议或指向安装tesseract-ocr 3.03 for Linux发行版的说明将非常感谢!感谢。
答案 0 :(得分:26)
可以使用
直接在Ubuntu 14.04中安装Tesseractsudo apt-get install tesseract-ocr
我不知道你是否可以在旧版本的Ubuntu中使用它,因为repo可能会在更高版本的Ubuntu中更新。
答案 1 :(得分:3)
Ubuntu是一个基于debian的Linux发行版。您找到的tesseract软件包很可能是一个debian软件包,其中包含tesseract和所需的默认语言文件,以便您运行/培训tesseract。 你不需要源包 - 除非你只是想自己编译它 - 不需要。你不需要构建tesseract,你只需要安装包。首先,看来你是Ubuntu的新手,所以请准备好InstallingSoftware。它可以像打开一个x-term并发出命令apt-get install tesseract-pkgname
一样简单(注意:这意味着无论包名是什么)。
没有快捷方式,请花时间了解您的盒子上是否有需要安装的.deb软件包,或者是否从远程存储库进行安装。上面的链接解释了如何处理这两个。
这是一个特定的Ubuntu线程,处理安装tesseract Tesseract 3.0 + Ubuntu 10.04 Installation Guide希望有所帮助。 Tesseract是非常好的软件。
答案 2 :(得分:3)
我有一个aws ubuntu 14.04实例。 当我尝试使用
安装Tesseract时sudo apt-get install tesseract-ocr
重新调整未找到的包
但这对我有用。
sudo apt-get update
sudo apt-get install tesseract-ocr
答案 3 :(得分:1)
我没有任何关于专门为Linux构建Tesseract 3.03的说明(我在Mac上),但这里有一个链接,可以下载3.03候选版本的源代码:https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz