如何在python中将从PDF提取的文本格式化为json

时间:2019-03-16 13:11:16

标签: python json pypdf2

我已经使用pyPDF2提取了一些文本格式的发票PDF。我想将此文本文件转换为仅包含重要关键字和标记的json文件。

输出应类似于:

#PurchaseOrder

{

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"

}

我从pdf中获得的示例文本是:

PACE会员商品 房子

4115私语松树圈子

大草原,德克萨斯州75051

972

336

7141

56929268

购买订单

收件人:

Elmer A. Hua

A +投资

Cerullo路1223号

列克星敦,肯塔基州40507

[电话号码]

运送至:

颜ur月

节奏 会员仓库

4115私语松树圈子

大草原,德克萨斯州75051

972

336

7141

P.O。 NUMBER:

PO / 18

19081

[P.O。号码必须 出现在所有相关 信件,运输 文件和发票]

P.O DATE

请求者

通过VIA运送

F.O.B。要点

条款

7/15/2006

数量

UNIT

说明

单位价格

总计 (SGD)

100.00

1

联锁Drifit圆领,ILRN

13.50

1,350.00

小计

1,350.00

销售税

200.00

1。

请发送两份您的 发票。

2。

根据价格,条款输入此订单, 交付方式和上面列出的规格。

3。

如果您无法按以下方式发货,请立即通知我们 指定。

4。

将所有信件发送至:

颜ur月

4115私语松树圈子

草 nd Prairie,TX 75051

972

336

7141

56929268

运输和手工艺品 G

OTHER

总计

1,550.00

授权人 桂冠月桂花

7/15/2006

1 个答案:

答案 0 :(得分:0)

您提供的文字可能是编辑帖子以删除地址的好主意

要回答您的问题,您将必须逐行遍历此文本并记录所需的部分并将其保存到json。

,如果您只想按位置获取页面的子集,则在此之前已被询问过 How to extract text from a Specific Area in a PDF using Python?