在发布问题之前,我想解释一下情况。我在一个文件夹中大约有7000个pdf文件,我的任务是给定一个查询,选择与该查询相关的pdf。
将pdf文件的所有名称放入列表中,并使用concurrent.futures
实现并行化。对于每个pdf文件,请提取文本并标记该句子并将其存储在db中。在db中,条目看起来像
6999 |文件名| list_of_tokens
浏览每个文件,获取标记(标记句子)并将标记存储在db中。棘手的部分是检查查询是否包含与标记相关的词。
对于实例,如果我的查询是阿联酋的gdp,我必须在所有我要输入的条目(7000个条目)中查找令牌,然后返回结果为pdf文件名。该过程非常耗时。
问题