我正在尝试使用PyPDF2从PDF文件中提取“输入/表”值。
文档未展平。 文档的第一页具有唯一表。 以下页面具有类似的表格。
对于第一页和最后一页,提取效果很好。但是,中间的所有页面都丢失了。
我的问题是:
1)问题可能与表中的“名称”相同有关,因此一遍又一遍地覆盖了值(请参见下面的输出示例)吗?这怎么解决?
'Groove_clearance_2[0]': '0.30',
'Coating_thickness_2[0]': '8.4',
'Coating_thickness_3[0]': '8.1',
'Groove_clearance_3[0]': '0.40',
'Groove_clearance_4[0]': '0.500',
'Coating_thickness_4[0]': '7.0',
'Coating_thickness_5[0]': None,
'Groove_clearance_5[0]': None,
'Additional_Comments[0]': 'schedule for overhauling the piston',
'Ring_5[0]': None,
'Ring_4[0]': 'Sharp edges ',
'Ring_3[0]': 'Sharp edges',
'Ring_2[0]': 'Sharp edges,lost tension,carbon on surface',
'Ring_1[0]': 'Sharp edges',
'Running_hours_7[0]': '2840',
'Running_hours_6[0]': '48486',
'Running_hours_5[0]': '34485',
'Running_hours_4[0]': '34485',
'Running_hours_3[0]': '23469',
'Running_hours_2[0]': '23469',
2)我试图将PDF拆分为单独的单页PDF,但是根本无法提取任何数据。似乎找不到任何formFields。如果1)无法解决,对此有什么解决办法?
谢谢。
最好的问候, 蒂姆