标签: python django pdf
我有一堆PDF(少数1000个)。它们没有适当的结构,也没有特定的领域。他们只有很多文字。
我需要做什么:
索引PDF并针对索引搜索一些关键字。我有兴趣查找特定关键字是否在PDF文档中,如果是,我想要找到关键字的pdf文件。如果我在这些PDF中搜索“Google”,我希望看到包含“Google”的“那些文件”
你们有什么建议?任何输入都非常感谢。我想在Python 3.4中做这些事情。
答案 0 :(得分:1)
我相信像这样的工具可以帮助你: https://github.com/euske/pdfminer