我想根据相似度对100个文档进行排名。例如,10个文档将类似地说(A,A',A'',A''',...),另一组10个文档可能是类似的说法(B,B',B'',B''',...)。现在,文档应该分为A,A',A'',...,B,B',B''& #39;,......等等。
相似度量基于单词的用法。排名后,用例是安排阅读文件,以便类似的文件一起阅读,如A,A''''',...,B,B& #39;,B'',...,Z,Z',Z''。
我可以使用TF-IDF来达到这个排名吗?这样做有没有C库?
答案 0 :(得分:0)
几个问题:
您可以使用的一个指标是文档中的单词。您可以为每个文档计算TF-IDF,然后使用关键短语查询文档。
E.g。如果您想找到一组谈论编程的文档,您可以使用查询搜索所有文档:
programming code coding
然后结果集将是通过这些关键词相似的文档。并且您可以在每个查询中显示相同的文档。
我对C库不太确定,但在python中你可以使用textblob轻松计算tf-idf。你可以从头开始构建它。