如何以编程方式将书签添加到多个PDF文件

时间:2019-05-28 03:37:34

标签: python pandas pdf

我收集了约300个PDF文件,每个文件代表一个存档的日记。每期平均约60页。

我有一个电子表格,其中详细列出了每个期/ PDF中文章的起始页和标题,我希望将它们作为书签添加到各个PDF文件中。电子表格中大约有9000行。在处理后,每300个问题(每个PDF文件都应包含针对其各自文章的相应书签)。

我已经在Python中使用PyPDF2和Pandas编写了一些简单的代码,它们会将书签列表插入单个PDF。

我应该能够使用熊猫将电子表格数据带入我的程序中,按期文件名选择第一篇文章,将相关的书签添加到PDF文件中,并迭代到下一个文件。

我可以让熊猫按照文件名来堆叠书签,但是我似乎无法选择书签和页面数据,也无法遍历文件名。

具有按文件名对熊猫分组的示例代码:

import pandas as pd
import numpy as np

#load the pdf filename and bookmark list
dfPdfBmk = pd.read_csv('bookmarkstest.csv')

marksGroupedbyFile = dfPdfBmk.reset_index().groupby(['filename','Subject']).sum()
print (marksGroupedbyFile.head())

我在努力的地方是如何选择文件名,书签条目和页面数据...

0 个答案:

没有答案