Python - 解析PDF文档中特定标准化信息的最佳方法?

时间:2013-05-15 22:27:12

标签: python pdf split text-parsing

我正在尝试解析这些PDF“武器销售通知”字母,在此处找到: http://www.dsca.mil/pressreleases/36-b/36b_index.htm

以下是向阿曼提出的武器销售的具体PDF文件示例: http://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf

由于我有600份这些文件,我想在示例中提取的信息包括国名(阿曼),待售物品清单(“AN / AAQ-24(V)大型飞机红外对策”( LAIRCM)系统“,销售成本(”1亿美元“)和主要承包商(”Northrop Grumman Corporation of Rolling Meadows,Illinois“)。

我可以使用哪种正则表达式或split()函数规范来隔离这样的文档中的这些信息?

1 个答案:

答案 0 :(得分:0)

您需要先读取转换后的文本以确定正则表达式。 PDF可能是文本转换的古怪。我建议使用pyPDF上的ReportLabs作为首选的PDF解析库。