从PDF索引和关键字搜索

时间:2016-03-11 16:52:44

标签: python django pdf

我有一堆PDF(少数1000个)。它们没有适当的结构,也没有特定的领域。他们只有很多文字。

我需要做什么:

索引PDF并针对索引搜索一些关键字。我有兴趣查找特定关键字是否在PDF文档中,如果是,我想要找到关键字的pdf文件。如果我在这些PDF中搜索“Google”,我希望看到包含“Google”的“那些文件”

你们有什么建议?任何输入都非常感谢。我想在Python 3.4中做这些事情。

1 个答案:

答案 0 :(得分:1)

我相信像这样的工具可以帮助你: https://github.com/euske/pdfminer