Question

我一直在研究一个简单的python程序，该程序可以处理加拿大GPH 205（http://products.navcanada.ca/e-CFS3-Subscription.html）中的所有机场，然后将它们放入包含Name，Identifier和Lat / Longs的CSV中。我的问题是，每当我尝试从页面中提取文本数据时，页面上用于机场名称保存的所有数据都存储在IndirectObjects中。

例如，第一个机场是Abbotsford，当页面被拉出时，我可以访问所示的IndirectObjects。我知道IndirectObject是（149339，0），但是如何访问它呢？

在将页面光栅化后，我已经尝试使用OCR解决此问题，但是要格式化的页面超过1000个，还有许多使Tesseract困惑的地图。

from PyPDF2 import PdfFileReader;

PDFFile = ('GPH205.pdf');
readPDF = PdfFileReader(PDFFile);
page = readPDF.getPage(100);
print(page);

print(page.extractText());

返回

{'/B': [IndirectObject(149339, 0)], '/Contents': IndirectObject(397, 0), ... }

BCCAB5BCCSM7ABBOTSFORD (REGIONAL HOSP...)

请注意，尽管它确实显示了机场名称（Abbotsford），但这是唯一返回的信息。我想学习如何访问IndirectObject（149339，0）中的信息，以查看这是否是我想要的。

如何在PDF IndirectObject中访问信息？

0 个答案: