我有大量的PDF,每个PDF上都有一个便笺,上面有一个数字(可能有1个以上,但我只关心第一个(顶部的一个))。
我不想逐个浏览这些文件,而是要从每个PDF的每个文本中提取文本,然后将其写入Excel,其中第一列为文件名,第二列为文件名。便签。
我无法找到任何方法,很高兴听到任何想法。
我尝试在Google上查找问题,并找到了PyPDF2,但我无法为此目的使用它,它似乎不支持即时贴。
找不到其他看起来很有前途的东西。
以下是此类PDF的示例: https://drive.google.com/open?id=1IYecrqlz_Q6D4Z0_3Rg2UKmr_LwsxWfn
您可以看到它有3个便签,只有一页(没关系,因为我认为所有PDF在第一页上都具有最上面的便签,因此我可以忽略其他页面),而最上面有一个便笺。我要提取的数字。当您使用adobe acrobat(我曾在此处放置便笺)单击右侧的“注释”时,它也是列表中的顶部便笺。
因此,对于上面的示例,我想创建一个具有1行的Excel,该行的第一列为“ example”,第二列为“ 95”。
编辑:
发现这看起来很有希望,并且完全符合我的要求,但它似乎适用于其他版本的python,并且在pycharm上不起作用(可能是因为python的版本)。