我已经使用pyPDF2提取了一些文本格式的发票PDF。我想将此文本文件转换为仅包含重要关键字和标记的json文件。
输出应类似于:
#PurchaseOrder
{
"doctype":"PO",
"orderingcompany":"Demo Company",
"suppliercompany":"Demo Company",
"shipto":"Test Customer",
"ponum":"PO1234",
"podate":"01-01-2019",
"totalamount":"$1234.50",
"currency":"SGD"
}
我从pdf中获得的示例文本是:
PACE会员商品 房子
4115私语松树圈子
大草原,德克萨斯州75051
7141
56929268
购买订单
收件人:
Elmer A. Hua
A +投资
Cerullo路1223号
列克星敦,肯塔基州40507
[电话号码]
运送至:
颜ur月
节奏 会员仓库
4115私语松树圈子
大草原,德克萨斯州75051
7141
P.O。 NUMBER:
19081
[P.O。号码必须 出现在所有相关 信件,运输 文件和发票]
P.O DATE
请求者
通过VIA运送
F.O.B。要点
条款
7/15/2006
数量
UNIT
说明
单位价格
总计 (SGD)
100.00
1
联锁Drifit圆领,ILRN
13.50
1,350.00
小计
1,350.00
销售税
200.00
1。
请发送两份您的 发票。
2。
根据价格,条款输入此订单, 交付方式和上面列出的规格。
3。
如果您无法按以下方式发货,请立即通知我们 指定。
4。
将所有信件发送至:
颜ur月
4115私语松树圈子
草 nd Prairie,TX 75051
7141
56929268
运输和手工艺品 G
OTHER
总计
1,550.00
授权人 桂冠月桂花
7/15/2006
答案 0 :(得分:0)
您提供的文字可能是编辑帖子以删除地址的好主意
要回答您的问题,您将必须逐行遍历此文本并记录所需的部分并将其保存到json。
,如果您只想按位置获取页面的子集,则在此之前已被询问过 How to extract text from a Specific Area in a PDF using Python?