从PDF文件中提取标题?

时间:2009-05-26 16:52:40

标签: python pdf

我想编写一个脚本来自动重命名下载的论文,我想知道是否有任何我可以使用的库或技巧? PDF全部由TeX生成,应该有一些“正式”结构。

4 个答案:

答案 0 :(得分:14)

您可以尝试使用pyPdfthis example

例如:

from pyPdf import PdfFileWriter, PdfFileReader

def get_pdf_title(pdf_file_path):
    with open(pdf_file_path) as f:
        pdf_reader = PdfFileReader(f) 
        return pdf_reader.getDocumentInfo().title

title = get_pdf_title('/home/user/Desktop/my.pdf')

答案 1 :(得分:2)

我可能会从perl开始(因为它始终是我第一个接触到的东西)。有several modules for handling PDFs。如果您具有一致的结构,则可以使用正则表达式来阻止标题。

答案 2 :(得分:2)

您可以尝试将iTextJython

一起使用

答案 3 :(得分:1)

假设所有这些论文都来自arXiv,你可以改为提取arXiv id(我猜想在PDF文本中搜索“arXiv:”会一直显示id为第一个命中)。

获得arXiv参考编号(并且已完成pip install arxiv)后,您可以使用

获取标题
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title