应用错误收集

在Python中查找TF IDF之后的字数统计

时间：2019-02-22 15:19:41

标签： python scikit-learn cluster-analysis similarity tf-idf

我是Python和集群的新手，我试图根据它们描述中的特征（即经典文档检索问题）来查找2个项目的接近程度。

在我使用的数据框中，我有2个字段，标识符和描述，并且此数据框中有大约1000条不同项目的记录。

现在正在寻找什么：

基于TF IDF单词计数，一个特定项目的前几个单词是什么。语料库将是数据框中所有的描述，我不确定如何实现。
如何根据描述中的TF IDF字数，基于余弦相似度找到最接近（最相似的项目）。

我正在尝试使用熊猫和Sklearn。非常感谢您的帮助。

谢谢。

0 个答案:

没有答案