从干草堆中搜索pdf文件

时间:2019-12-14 19:21:14

标签: python-3.x pdf search

在发布问题之前,我想解释一下情况。我在一个文件夹中大约有7000个pdf文件,我的任务是给定一个查询,选择与该查询相关的pdf。

到目前为止我做了什么?

将pdf文件的所有名称放入列表中,并使用concurrent.futures实现并行化。对于每个pdf文件,请提取文本并标记该句子并将其存储在db中。在db中,条目看起来像

  1. |文件名|令牌列表   。   。   。

6999 |文件名| list_of_tokens

浏览每个文件,获取标记(标记句子)并将标记存储在db中。棘手的部分是检查查询是否包含与标记相关的词。

对于实例,如果我的查询是阿联酋的gdp,我必须在所有我要输入的条目(7000个条目)中查找令牌,然后返回结果为pdf文件名。该过程非常耗时。

问题

  1. 您认为遍历所有pdf文件并查找令牌是完成任务的唯一方法吗?

0 个答案:

没有答案