我收集了约300个PDF文件,每个文件代表一个存档的日记。每期平均约60页。
我有一个电子表格,其中详细列出了每个期/ PDF中文章的起始页和标题,我希望将它们作为书签添加到各个PDF文件中。电子表格中大约有9000行。在处理后,每300个问题(每个PDF文件都应包含针对其各自文章的相应书签)。
我已经在Python中使用PyPDF2和Pandas编写了一些简单的代码,它们会将书签列表插入单个PDF。
我应该能够使用熊猫将电子表格数据带入我的程序中,按期文件名选择第一篇文章,将相关的书签添加到PDF文件中,并迭代到下一个文件。
我可以让熊猫按照文件名来堆叠书签,但是我似乎无法选择书签和页面数据,也无法遍历文件名。
具有按文件名对熊猫分组的示例代码:
import pandas as pd
import numpy as np
#load the pdf filename and bookmark list
dfPdfBmk = pd.read_csv('bookmarkstest.csv')
marksGroupedbyFile = dfPdfBmk.reset_index().groupby(['filename','Subject']).sum()
print (marksGroupedbyFile.head())
我在努力的地方是如何选择文件名,书签条目和页面数据...