使用TF-IDF基于相似性进行文档排列

时间:2016-02-23 10:35:39

标签: data-mining tf-idf data-processing

我想根据相似度对100个文档进行排名。例如,10个文档将类似地说(A,A',A'',A''',...),另一组10个文档可能是类似的说法(B,B',B'',B''',...)。现在,文档应该分为A,A',A'',...,B,B',B''& #39;,......等等。

相似度量基于单词的用法。排名后,用例是安排阅读文件,以便类似的文件一起阅读,如A,A''''',...,B,B& #39;,B'',...,Z,Z',Z''。

我可以使用TF-IDF来达到这个排名吗?这样做有没有C库?

1 个答案:

答案 0 :(得分:0)

几个问题:

  1. 您使用的是什么类型的相似性指标?
  2. 文档是否可以出现在A和B中?
  3. 您可以使用的一个指标是文档中的单词。您可以为每个文档计算TF-IDF,然后使用关键短语查询文档。

    E.g。如果您想找到一组谈论编程的文档,您可以使用查询搜索所有文档:

    programming code coding
    

    然后结果集将是通过这些关键词相似的文档。并且您可以在每个查询中显示相同的文档。

    我对C库不太确定,但在python中你可以使用textblob轻松计算tf-idf。你可以从头开始构建它。