我有+8百万个文本文件,每个文件包含+500个单词。我需要处理它们,以便我进行关键字提取和标记预测,以自动标记这些文件。
在阅读有关此主题的论文时,我发现了一篇论文,他们在预处理阶段使用自定义词典。此词典用于过滤掉嵌入代码段中的拼写错误元素或任意变量名称等噪声元素。
既然我希望重新创建他们的方法,并且 - 希望 - 通过添加我自己的贡献来改进,我想知道使用这样的词典处理我的数据最有效的方法是什么。由于数据量很大,我想要一个快速(与大量相关)和内存效率的解决方案。
但是我不知道如何实现这一点。是对每个文本文件中的每个单词进行强力查询的最快,最有效的方法,如果该单词不在数据库中,则将其从文件中删除? (这需要很长时间,需要大量的计算/内存恕我直言)。 或有一种更快的方式,我可以用完整的文本文件(或作为字符串)查询数据库,使数据库执行这样的预处理(所以取出每个单词,查找是否在词典中删除,如果不是这样,然后再返回较短的文本文件/字符串)?