我想提取PDF中存在的表格。我已经完成了一些部分,但是我的问题是我无法仅提取表类型为TABLE的Table值。对我而言,它并没有填充为TABLE,而是将其提取为LINE的块类型。 为此,我正在使用n亚马逊异步textract方法。 如前所述,我正在调用API来启动S3中放置的PDF提取作业。我正在使用python作为语言。
开始作业的API调用-
response = textract.start_document_analysis(
DocumentLocation={
'S3Object': {
'Bucket': 'awstextextract_test',
'Name': 'CBSL1.pdf'
}},
FeatureTypes=['TABLES'])
print(response)
response = textract.get_document_analysis(
JobId = 'test',
MaxResults=20)
print(response)
API CALL用于获取文本分析-
response = textract.get_document_analysis(
JobId = '0236d4bf3aba7371b86e8a3523721e2fca735282bec5bfeb8fb2e2a92834bd03',
MaxResults=20)
print(response)
u'Text': u'NCPI(2013-100)', u'Page': 1, u'BlockType': u'LINE', u'Id': u'c774154a-6fc5-4736-b089-c1981f0396f1'}