我有一个问题,我需要将50,000个tiff分别批量转换为50,000个txt文件。我知道abbyy finereader和其他一些软件可以做到这一点,但免费的解决方案是最好的。我也一直在研究tesseract。是否有人知道任何使用tesseract的脚本或程序自动执行此操作并具有高质量的输出?
提前致谢
答案 0 :(得分:3)
对于使用Tesseract的免费解决方案,这是一个简单的命令行批处理文件。根据需要更改变量内容和/或创建文件夹:
:Start
@Echo off
Set _SourcePath=C:\tifs\*.tif
Set _OutputPath=C:\txts\
Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
:Convert
For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA
:End
Set "_SourcePath="
Set "_OutputPath="
Set "_Tesseract="
答案 1 :(得分:1)
在我看来,无论你是否正在寻找免费的解决方案,我认为Tesseract会给你最好的结果。
如果您弄清楚如何转换一个文件,然后回发您使用的命令,则很容易将批处理脚本一起破解以处理多个文件。
答案 2 :(得分:0)
看看VietOCR,Tesseract的Java / .NET前端;它的功能似乎符合你的需要。