Question

我正在使用Tesseract在数百万的PDF上进行OCR，而我正试图尽可能多地挤出性能。

我当前的管道使用convert将PDF转换为PNG文件（每页一个），然后在每个文件上使用Tesseract。

在分析期间，我发现花了很多时间将文件写入磁盘，然后再次读取它们，所以我想把所有这些都移到内存中。

我已经在内存中进行了PDF到PNG的转换，所以现在我需要一种方法将内存blob传递给Tesseract而不是给它一个文件路径？我一直无法找到任何文档或示例？

Answer 1

您可以使用pytesseract。它是Google Tesseract的Python包装器。

用法：

image = ... # read image to memory
result = pytesseract.image_to_string(image, lang="eng")