python-3.x - 从干草堆中搜索pdf文件

在发布问题之前，我想解释一下情况。我在一个文件夹中大约有7000个pdf文件，我的任务是给定一个查询，选择与该查询相关的pdf。

到目前为止我做了什么？

将pdf文件的所有名称放入列表中，并使用concurrent.futures实现并行化。对于每个pdf文件，请提取文本并标记该句子并将其存储在db中。在db中，条目看起来像

6999 |文件名| list_of_tokens

浏览每个文件，获取标记（标记句子）并将标记存储在db中。棘手的部分是检查查询是否包含与标记相关的词。

对于实例，如果我的查询是阿联酋的gdp，我必须在所有我要输入的条目（7000个条目）中查找令牌，然后返回结果为pdf文件名。该过程非常耗时。

问题