如何在PDF IndirectObject中访问信息?

时间:2019-05-04 14:25:32

标签: python pdf

我一直在研究一个简单的python程序,该程序可以处理加拿大GPH 205(http://products.navcanada.ca/e-CFS3-Subscription.html)中的所有机场,然后将它们放入包含Name,Identifier和Lat / Longs的CSV中。我的问题是,每当我尝试从页面中提取文本数据时,页面上用于机场名称保存的所有数据都存储在IndirectObjects中。

例如,第一个机场是Abbotsford,当页面被拉出时,我可以访问所示的IndirectObjects。我知道IndirectObject是(149339,0),但是如何访问它呢?

在将页面光栅化后,我已经尝试使用OCR解决此问题,但是要格式化的页面超过1000个,还有许多使Tesseract困惑的地图。

from PyPDF2 import PdfFileReader;

PDFFile = ('GPH205.pdf');
readPDF = PdfFileReader(PDFFile);
page = readPDF.getPage(100);
print(page);

print(page.extractText());

返回

{'/B': [IndirectObject(149339, 0)], '/Contents': IndirectObject(397, 0), ... }

BCCAB5BCCSM7ABBOTSFORD (REGIONAL HOSP...)

请注意,尽管它确实显示了机场名称(Abbotsford),但这是唯一返回的信息。我想学习如何访问IndirectObject(149339,0)中的信息,以查看这是否是我想要的。

0 个答案:

没有答案