使用Amazon Textract服务从pdf提取表格

时间:2019-12-20 11:45:27

标签: python amazon-textract

我想提取PDF中存在的表格。我已经完成了一些部分,但是我的问题是我无法仅提取表类型为TABLE的Table值。对我而言,它并没有填充为TABLE,而是将其提取为LINE的块类型。 为此,我正在使用n亚马逊异步textract方法。 如前所述,我正在调用API来启动S3中放置的PDF提取作业。我正在使用python作为语言。

开始作业的API调用-

response = textract.start_document_analysis(
    DocumentLocation={
        'S3Object': {
            'Bucket': 'awstextextract_test',
            'Name': 'CBSL1.pdf'

        }},
        FeatureTypes=['TABLES'])

    print(response)

    response = textract.get_document_analysis(
        JobId = 'test',
        MaxResults=20)

    print(response)


API CALL用于获取文本分析-


response = textract.get_document_analysis(
                JobId = '0236d4bf3aba7371b86e8a3523721e2fca735282bec5bfeb8fb2e2a92834bd03',
                MaxResults=20)

    print(response)

u'Text': u'NCPI(2013-100)', u'Page': 1, u'BlockType': u'LINE', u'Id': u'c774154a-6fc5-4736-b089-c1981f0396f1'}

0 个答案:

没有答案