使用Python和pyPDF提取前两行PDF

时间:2016-09-29 04:46:58

标签: python python-2.7 pypdf

我使用python 2.7和pyPDF从PDF文件中获取标题元信息。不幸的是,并非所有PDF都有元信息。我现在要做的是从PDF获取前两行文本。使用我现在拥有的内容如何修改代码以使用pyPDF捕获前两行?

from pyPdf import PdfFileWriter, PdfFileReader
import os

for fileName in os.listdir('.'):
    try:
        if fileName.lower()[-3:] != "pdf": continue
        input1 = PdfFileReader(file(fileName, "rb"))

        # print the title of document1.pdf
        print fileName, input1.getDocumentInfo().title
    except:
        print ",", 

1 个答案:

答案 0 :(得分:1)

from PyPDF2 import PdfFileWriter, PdfFileReader
import os
import StringIO

fileName = "HMM.pdf"
try:
        if fileName.lower()[-3:] == "pdf": 
            input1 = PdfFileReader(file(fileName, "rb"))

            # print the title of document1.pdf
            #print fileName, input1.getDocumentInfo().title

            content = input1.getPage(0).extractText()
            buf = StringIO.StringIO(content)
            buf.readline()
            buf.readline()

except:
        print ",", 

我的pwd包含这个“HMM.pdf”文件,这段代码正在使用python 2.7。