Question

我正在尝试使用Python从PDF中提取Text，并且我已成功地使用PyPDF2这样做：

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()

这会从页面中提取所有文本，但我只想从页面左上角的3'x4'的矩形区域中提取文本。

可以通过PyPDF2或任何其他Python库来完成吗？

Answer 1

这是一个相当复杂的话题，但它是可能的。首先，您需要熟悉pdf格式描述。

例如，开始here。

您可以识别文本框的位置和内容，并提取字符串数据。

This主题包含pyPdf的示例，pyPdf是PyPDF2的先前版本，但语法类似。有关如何迭代间接对象的示例。

开始的好地方也是您使用的函数pageObj.extractText()的来源。