我正在尝试使用Python从PDF中提取Text,并且我已成功地使用PyPDF2这样做:
import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()
这会从页面中提取所有文本,但我只想从页面左上角的3'x4'的矩形区域中提取文本。
我基本上想做类似的事情:How-to extract text from a pdf doc within a specific rectangular region?但是在Python中
可以通过PyPDF2或任何其他Python库来完成吗?
答案 0 :(得分:3)
这是一个相当复杂的话题,但它是可能的。 首先,您需要熟悉pdf格式描述。
例如,开始here。
您可以识别文本框的位置和内容,并提取字符串数据。
This主题包含pyPdf的示例,pyPdf是PyPDF2的先前版本,但语法类似。有关如何迭代间接对象的示例。
开始的好地方也是您使用的函数pageObj.extractText()的来源。
如果您不受Python限制:How to extract text from a PDF?