python - Python - 解析PDF文档中特定标准化信息的最佳方法？

Python - 解析PDF文档中特定标准化信息的最佳方法？

时间：2013-05-15 22:27:12

标签： python pdf split text-parsing

我正在尝试解析这些PDF“武器销售通知”字母，在此处找到： http://www.dsca.mil/pressreleases/36-b/36b_index.htm

以下是向阿曼提出的武器销售的具体PDF文件示例： http://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf

由于我有600份这些文件，我想在示例中提取的信息包括国名（阿曼），待售物品清单（“AN / AAQ-24（V）大型飞机红外对策”（ LAIRCM）系统“，销售成本（”1亿美元“）和主要承包商（”Northrop Grumman Corporation of Rolling Meadows，Illinois“）。

我可以使用哪种正则表达式或split（）函数规范来隔离这样的文档中的这些信息？

1 个答案:

答案 0 :(得分：0)

您需要先读取转换后的文本以确定正则表达式。 PDF可能是文本转换的古怪。我建议使用pyPDF上的ReportLabs作为首选的PDF解析库。