寻找余弦相似度分数

时间:2019-10-04 06:03:21

标签: python machine-learning

我有一个看起来像这样的数据框:

sentence    intent
hi          greeting
hello       greeting
buy this    buy
whats up    conversation
.
.

我想做的是获取此数据帧,计算TF-IDF,然后在新查询中使用TF-IDF值来计算余弦相似度。例如,如果用户键入“嗨,你好吗?”最相似的句子将按其意图打印出来。

当前,我具有数据帧的TF-IDF:

from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer()
x = v.fit_transform(intent_data["sentence"])

如何获取新句子的TF-IDF,然后使用它获得余弦相似度来查找与用户键入的句子最相关的文档(句子)? 注意:我知道数据框示例的句子很短,但仅用作示例。

0 个答案:

没有答案