如何从内存中提供图像到Tesseract

时间:2016-08-23 20:41:36

标签: python performance tesseract wand

我正在使用Tesseract在数百万的PDF上进行OCR,而我正试图尽可能多地挤出性能。

我当前的管道使用convert将PDF转换为PNG文件(每页一个),然后在每个文件上使用Tesseract。

在分析期间,我发现花了很多时间将文件写入磁盘,然后再次读取它们,所以我想把所有这些都移到内存中。

我已经在内存中进行了PDF到PNG的转换,所以现在我需要一种方法将内存blob传递给Tesseract而不是给它一个文件路径?我一直无法找到任何文档或示例?

1 个答案:

答案 0 :(得分:0)

您可以使用pytesseract。它是Google Tesseract的Python包装器。

用法:

image = ... # read image to memory
result = pytesseract.image_to_string(image, lang="eng")