标签: python scikit-learn cluster-analysis similarity tf-idf
我是Python和集群的新手,我试图根据它们描述中的特征(即经典文档检索问题)来查找2个项目的接近程度。
在我使用的数据框中,我有2个字段,标识符和描述,并且此数据框中有大约1000条不同项目的记录。
现在正在寻找什么:
基于TF IDF单词计数,一个特定项目的前几个单词是什么。语料库将是数据框中所有的描述,我不确定如何实现。
如何根据描述中的TF IDF字数,基于余弦相似度找到最接近(最相似的项目)。
我正在尝试使用熊猫和Sklearn。非常感谢您的帮助。
谢谢。