很抱歉,如果我的标题没有多大意义,但这就是我需要的:
所以我正在运行一个开源的ocr程序tesseract,我在命令提示符下使用它(我使用的是windows),这样'tesseract input.jgp output.txt'这个命令将采用input.jpg 并将其转换为output.txt
我有数百个输入文件,我必须转换。(甚至更多)我有什么办法可以 制作一个程序,以便它自动运行tesseract程序的不同输入文件???
如果我的描述不够,我真的很抱歉,如果是这样,请告诉我我应该描述的内容。
谢谢
答案 0 :(得分:1)
使用windows cmd shell,切换到包含jpg文件的文件夹,然后尝试
for %i in (*.jpg) do tesseract %i %~ni.txt
这将为每个jpg文件运行tesseract,并将输出放在具有类似名称的文本文件中,但后缀为“txt”而不是jpg。要了解有关“for”命令的更多信息,请在命令行中键入“help for”。如果您需要有关cmd shell编程的教程,请尝试以下方法:http://www.csie.ntu.edu.tw/~r92092/ref/win32/win32scripting.html#Win32Scripting-Control-Constructs
答案 1 :(得分:0)
您的所有输入文件都在一个文件夹中吗?您可以创建一个批处理文件来迭代文件夹中的所有jpg文件,并对这些文件运行tesseract程序。
如果要以某种语言编写“迭代器”程序,请查看该语言是否有办法调用Windows程序。大多数语言至少有一种方法可以做到这一点。
仅供参考,如果输入文件不在单个文件夹中,则必须有一种方法来指定“迭代器”程序中所有图像的位置。如何做到这一点取决于输入文件的分布情况。
答案 2 :(得分:0)
VietOCR是Tesseract的GUI前端,支持批量ocr功能。