使用Amazon Textract从多页文档PDF同步检测和分析文本

时间:2020-06-30 11:28:56

标签: python ocr aws-textract

回答https://stackoverflow.com/a/62174368/8117673

还有一个问题-它会影响Amazon Textract的文本检测准确性吗?

我需要预处理图像以获得更好的Amazon Textract结果吗?

1 个答案:

答案 0 :(得分:0)

我使用命令pdftoppm将PDF转换为PNG。在Python中-> subprocess.Popen(['pdftoppm -png Sample.pdf Sample'])

Amazon Textract在PDF文件上的准确性高于PNG格式。因为PDF是原始文档。