我试图在Ubuntu 17.10中从命令行执行tesseract。我希望输出在.tsv
文件中,因为我需要置信度。正如here所述,我执行:
tesseract testing_img.png out tsv
但我收到以下错误:
read_params_file: Can't open tsv
Tesseract Open Source OCR Engine v3.05.00 with Leptonica
并在out.txt
文件中正确写入输出。它似乎将tsv
参数读作一个要阅读的文件,但我不知道为什么。
我已经从源代码编译了Tesseract,因为我需要Tesseract 3.05才能将.tsv
文件作为输出,因此我无法在Ubuntu存储库中使用该版本,因为它具有Tesseract 3.04
我正在运行Ubuntu 17.10。
以下是有关我的Tesseract安装的一些信息:
$ tesseract --version
tesseract 3.05.00
leptonica-1.75.3
libpng 1.6.34 : zlib 1.2.11
$ ls /usr/share/tesseract-ocr/tessdata/
configs eng.traineddata ita.traineddata osd.traineddata pdf.ttf tessconfigs
$ echo $TESSDATA_PREFIX
/usr/share/tesseract-ocr/
答案 0 :(得分:3)
我遇到了同样的问题,在我的例子中,目录
中有一个名为tsv
的文件
/usr/share/tesseract-ocr/tessdata/configs
缺少。我从以下网址下载了tesseract的源代码:
https://github.com/tesseract-ocr/tesseract/archive/3.05.00.tar.gz
并替换了文件夹configs
的内容。