使用Amazon Textract时不受支持的文档格式,

时间:2019-07-18 07:08:30

标签: python python-3.x amazon-textract

当我尝试解析通过Amazon s3访问的pdf文件时,它给我一个错误,请求具有不受支持的文档格式。

我正在将Amazon textract与boto3结合使用。当我尝试解析通过亚马逊s3访问的pdf文件时,它给我一个错误,请求不受支持 文件格式。我对此很陌生,在textract的文档中提到确实支持pdf文件。

这是我正在使用的代码。

import boto3
textractClient = boto3.client('textract',region_name='us-east-1')
response = textractClient.detect_document_text(
        Document={'S3Object': {'Bucket': 'bucketName', 'Name': 'filename.pdf'}})
blocks = response['Blocks']

这给了我错误,请求具有不受支持的文档格式。

1 个答案:

答案 0 :(得分:0)

detect_document_text()是仅支持PNG或JPG图像的同步API。

如果要处理PDF文件,则应使用名为start_document_text_detection()的异步API。

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/textract.html#Textract.Client.start_document_text_detection