在Python中查找TF IDF之后的字数统计

时间:2019-02-22 15:19:41

标签: python scikit-learn cluster-analysis similarity tf-idf

我是Python和集群的新手,我试图根据它们描述中的特征(即经典文档检索问题)来查找2个项目的接近程度。

在我使用的数据框中,我有2个字段,标识符和描述,并且此数据框中有大约1000条不同项目的记录。

现在正在寻找什么:

  1. 基于TF IDF单词计数,一个特定项目的前几个单词是什么。语料库将是数据框中所有的描述,我不确定如何实现。

  2. 如何根据描述中的TF IDF字数,基于余弦相似度找到最接近(最相似的项目)。

我正在尝试使用熊猫和Sklearn。非常感谢您的帮助。

谢谢。

0 个答案:

没有答案