Question

我想提取PDF中存在的表格。我已经完成了一些部分，但是我的问题是我无法仅提取表类型为TABLE的Table值。对我而言，它并没有填充为TABLE，而是将其提取为LINE的块类型。为此，我正在使用n亚马逊异步textract方法。如前所述，我正在调用API来启动S3中放置的PDF提取作业。我正在使用python作为语言。

开始作业的API调用-

response = textract.start_document_analysis(
    DocumentLocation={
        'S3Object': {
            'Bucket': 'awstextextract_test',
            'Name': 'CBSL1.pdf'

        }},
        FeatureTypes=['TABLES'])

    print(response)

    response = textract.get_document_analysis(
        JobId = 'test',
        MaxResults=20)

    print(response)

API CALL用于获取文本分析-


response = textract.get_document_analysis(
                JobId = '0236d4bf3aba7371b86e8a3523721e2fca735282bec5bfeb8fb2e2a92834bd03',
                MaxResults=20)

    print(response)

u'Text': u'NCPI(2013-100)', u'Page': 1, u'BlockType': u'LINE', u'Id': u'c774154a-6fc5-4736-b089-c1981f0396f1'}

使用Amazon Textract服务从pdf提取表格

0 个答案: