标签: nlp data-science tf-idf
我有两组文件,它取A和B,两组都有大约10000个文件。我想在集合B中找到与集合A中的每个文件最匹配的文件。
实际上,集合A和集合B中的文件实际上是目录,但为了简单起见,我将它们称为文件。
目前我编写了很少的解析器来从两个集合中提取重要属性并将它们存储在数据库中,并将其作为两种类型中每个文件的特征。
现在,我想找到集A中文件与集合B中文件最接近的匹配。
请告诉我有关解决此问题的最佳方法的建议。