OCR批处理tiff到文本

时间:2012-03-20 11:07:28

标签: batch-file ocr tiff tesseract

我有一个问题,我需要将50,000个tiff分别批量转换为50,000个txt文件。我知道abbyy finereader和其他一些软件可以做到这一点,但免费的解决方案是最好的。我也一直在研究tesseract。是否有人知道任何使用tesseract的脚本或程序自动执行此操作并具有高质量的输出?

提前致谢

3 个答案:

答案 0 :(得分:3)

对于使用Tesseract的免费解决方案,这是一个简单的命令行批处理文件。根据需要更改变量内容和/或创建文件夹:

:Start
   @Echo off
   Set _SourcePath=C:\tifs\*.tif
   Set _OutputPath=C:\txts\
   Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
:Convert
   For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA
:End   
   Set "_SourcePath="
   Set "_OutputPath="
   Set "_Tesseract="

答案 1 :(得分:1)

在我看来,无论你是否正在寻找免费的解决方案,我认为Tesseract会给你最好的结果。

如果您弄清楚如何转换一个文件,然后回发您使用的命令,则很容易将批处理脚本一起破解以处理多个文件。

答案 2 :(得分:0)

看看VietOCR,Tesseract的Java / .NET前端;它的功能似乎符合你的需要。