如何使用Tesseract将OCR多个图像文件批处理为多个文本文件

时间:2018-11-22 18:06:17

标签: ubuntu-16.04 tesseract

我目前正在使用tesseract将一些jpeg文件转换为txt文件(在Ubuntu 16.04中)。通常,一个目录中大约有500个文件。

我知道我可以通过使用所有文件名(savedlist.txt)创建一个文本文件,然后执行以下操作:

KeyError: "['intgid$_x' 'id$_x'] not in index"

但是output.txt是包含所有ocr结果的单个文件。

我需要的是能够将ocr结果保存到具有与原始图像文件相同文件名的单个txt文件中。例如:

  

输入文件:image456.jpeg
  输出文件:image456.txt

所以我正在寻找可以执行此处理的命令行脚本。

0 个答案:

没有答案