Question

我想编写一个脚本来自动重命名下载的论文，我想知道是否有任何我可以使用的库或技巧？ PDF全部由TeX生成，应该有一些“正式”结构。

Answer 1

您可以尝试使用pyPdf和this example。

例如：

from pyPdf import PdfFileWriter, PdfFileReader

def get_pdf_title(pdf_file_path):
    with open(pdf_file_path) as f:
        pdf_reader = PdfFileReader(f) 
        return pdf_reader.getDocumentInfo().title

title = get_pdf_title('/home/user/Desktop/my.pdf')

Answer 2

我可能会从perl开始（因为它始终是我第一个接触到的东西）。有several modules for handling PDFs。如果您具有一致的结构，则可以使用正则表达式来阻止标题。

Answer 3

您可以尝试将iText与Jython

一起使用

Answer 4

假设所有这些论文都来自arXiv，你可以改为提取arXiv id（我猜想在PDF文本中搜索“arXiv：”会一直显示id为第一个命中）。

获得arXiv参考编号（并且已完成pip install arxiv）后，您可以使用

获取标题

paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title

从PDF文件中提取标题？

4 个答案: