如何使用Python从PDF中的特定区域提取文本?

时间:2017-08-21 07:09:46

标签: python python-2.7 pdf pypdf2

我正在尝试使用Python从PDF中提取Text,并且我已成功地使用PyPDF2这样做:

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()

这会从页面中提取所有文本,但我只想从页面左上角的3'x4'的矩形区域中提取文本。

我基本上想做类似的事情:How-to extract text from a pdf doc within a specific rectangular region?但是在Python中

可以通过PyPDF2或任何其他Python库来完成吗?

1 个答案:

答案 0 :(得分:3)

这是一个相当复杂的话题,但它是可能的。 首先,您需要熟悉pdf格式描述。

例如,开始here

您可以识别文本框的位置和内容,并提取字符串数据。

This主题包含pyPdf的示例,pyPdf是PyPDF2的先前版本,但语法类似。有关如何迭代间接对象的示例。

开始的好地方也是您使用的函数pageObj.extractText()的来源。

如果您不受Python限制:How to extract text from a PDF?