如何找到一些pdf文件包含一些使用python的关键字

时间:2017-12-15 07:45:10

标签: python git pdf logging diff

我在目录中的pdf文件中有很多关于许多主题的文章。我需要从这些数百篇文章中指出一些包含关键字git loggit diff命令的论文。然后,我将在列表中收集所选文章。

我们如何使用Python做到这一点?

1 个答案:

答案 0 :(得分:1)

如果您不反对使用库,则可以使用 https://github.com/euske/pdfminer

我已经为nodejs做了一些事情,只是递归扫描目录并使用pdfminer扫描每个文件并使其返回结果。

古德勒克!