我想编写一个脚本来自动重命名下载的论文,我想知道是否有任何我可以使用的库或技巧? PDF全部由TeX生成,应该有一些“正式”结构。
答案 0 :(得分:14)
您可以尝试使用pyPdf和this example。
例如:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
答案 1 :(得分:2)
我可能会从perl开始(因为它始终是我第一个接触到的东西)。有several modules for handling PDFs。如果您具有一致的结构,则可以使用正则表达式来阻止标题。
答案 2 :(得分:2)
答案 3 :(得分:1)
假设所有这些论文都来自arXiv,你可以改为提取arXiv id(我猜想在PDF文本中搜索“arXiv:”会一直显示id为第一个命中)。
获得arXiv参考编号(并且已完成pip install arxiv
)后,您可以使用
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title