我使用python 2.7和pyPDF从PDF文件中获取标题元信息。不幸的是,并非所有PDF都有元信息。我现在要做的是从PDF获取前两行文本。使用我现在拥有的内容如何修改代码以使用pyPDF捕获前两行?
from pyPdf import PdfFileWriter, PdfFileReader
import os
for fileName in os.listdir('.'):
try:
if fileName.lower()[-3:] != "pdf": continue
input1 = PdfFileReader(file(fileName, "rb"))
# print the title of document1.pdf
print fileName, input1.getDocumentInfo().title
except:
print ",",
答案 0 :(得分:1)
from PyPDF2 import PdfFileWriter, PdfFileReader
import os
import StringIO
fileName = "HMM.pdf"
try:
if fileName.lower()[-3:] == "pdf":
input1 = PdfFileReader(file(fileName, "rb"))
# print the title of document1.pdf
#print fileName, input1.getDocumentInfo().title
content = input1.getPage(0).extractText()
buf = StringIO.StringIO(content)
buf.readline()
buf.readline()
except:
print ",",
我的pwd包含这个“HMM.pdf”文件,这段代码正在使用python 2.7。