使用pypdf2从pdf提取标题不起作用

时间:2018-07-18 11:38:12

标签: python-3.x extraction pdfminer pypdf2

我正在尝试使用pyPDF2提取PDF文件的标题。输出为无或标题错误。我也尝试使用PDFminer,结果仍然相同。我尝试使用3个不同的pdf文件。有没有更好的方法可以更准确地提取标题? 这是我使用的代码:

from PyPDF2 import PdfFileReader

def get_pdf_title(pdf_file_path):

    pdf_reader = PdfFileReader(open(pdf_file_path, "rb")) 
    return pdf_reader.getDocumentInfo().title

title = get_pdf_title('C:/PythonPrograms/Test.pdf')

print(title)

1 个答案:

答案 0 :(得分:0)

您的代码至少在python 3.5.2上对我有效。在PDF属性中检查他确实有标题。 PDF的标题是其元数据的一部分,需要设置。它不是强制性的,与内容无关(除非是书面人员的意愿),也不与文件名有关。

如果您在没有标题的文件上使用摘要,则其输出将为空字符串。