如何检查Tesseract是否已完成文件处理?

时间:2018-11-15 10:57:36

标签: vb.net winforms file-io visual-studio-2013 tesseract

我只是在vb.net中编程一个软件,在其中尝试OCR数十个* .jpg文件。

基本思想是手动选择一个文件夹,其中有一堆jpg文件,另一个文件夹中存储了Tesseract输出的txt文件。

如您所知,Tesseract需要几秒钟的时间(在我的情况下,由于我的计算机运行不快而需要花费更多时间)来处理jpg文件并对其进行OCR。

问题是我想一张一张地OCR每个jpg,所以我需要知道Tesseract何时完成每个文件的处理。我使用参数快速执行CMD命令时,Tesseract创建了一个空的txt文件。但是我不知道如何检查Tesseract完成文件处理的时间,VB软件可以启动指令来处理以下jpg。

我已经考虑过检查txt文件的字节长度,如果不为零,则意味着该文件已由Tesseract处理。

目前,我有一个Do ... Loop,可以在其中处理每个jpg文件,还有一个嵌套的Do ... Loop,它可以检查txt文件的大小是否大于0字节。如果不大于零字节,它将执行thread.sleep(5000)。

Do Until myFileSize > 0
    Thread.Sleep(5000)
Loop

尝试在txt文件大小= 0字节时一次又一次地休眠代码。

这是我所知道的唯一解决方案,但是它似乎没有执行我想要的操作。

您将使用哪种技术来解决这种情况?

1 个答案:

答案 0 :(得分:0)

Tesseract具有批处理模式,您可以在其中提供必须处理的文件列表,它将处理每个文件。 看看here