我只是在vb.net中编程一个软件,在其中尝试OCR数十个* .jpg文件。
基本思想是手动选择一个文件夹,其中有一堆jpg文件,另一个文件夹中存储了Tesseract输出的txt文件。
如您所知,Tesseract需要几秒钟的时间(在我的情况下,由于我的计算机运行不快而需要花费更多时间)来处理jpg文件并对其进行OCR。
问题是我想一张一张地OCR每个jpg,所以我需要知道Tesseract何时完成每个文件的处理。我使用参数快速执行CMD命令时,Tesseract创建了一个空的txt文件。但是我不知道如何检查Tesseract完成文件处理的时间,VB软件可以启动指令来处理以下jpg。
我已经考虑过检查txt文件的字节长度,如果不为零,则意味着该文件已由Tesseract处理。
目前,我有一个Do ... Loop,可以在其中处理每个jpg文件,还有一个嵌套的Do ... Loop,它可以检查txt文件的大小是否大于0字节。如果不大于零字节,它将执行thread.sleep(5000)。
Do Until myFileSize > 0
Thread.Sleep(5000)
Loop
尝试在txt文件大小= 0字节时一次又一次地休眠代码。
这是我所知道的唯一解决方案,但是它似乎没有执行我想要的操作。
您将使用哪种技术来解决这种情况?