我正在使用Tesseract在数百万的PDF上进行OCR,而我正试图尽可能多地挤出性能。
我当前的管道使用convert
将PDF转换为PNG文件(每页一个),然后在每个文件上使用Tesseract。
在分析期间,我发现花了很多时间将文件写入磁盘,然后再次读取它们,所以我想把所有这些都移到内存中。
我已经在内存中进行了PDF到PNG的转换,所以现在我需要一种方法将内存blob传递给Tesseract而不是给它一个文件路径?我一直无法找到任何文档或示例?
答案 0 :(得分:0)
您可以使用pytesseract。它是Google Tesseract的Python包装器。
用法:
image = ... # read image to memory
result = pytesseract.image_to_string(image, lang="eng")