我有一个看起来像这样的数据框:
sentence intent
hi greeting
hello greeting
buy this buy
whats up conversation
.
.
我想做的是获取此数据帧,计算TF-IDF,然后在新查询中使用TF-IDF值来计算余弦相似度。例如,如果用户键入“嗨,你好吗?”最相似的句子将按其意图打印出来。
当前,我具有数据帧的TF-IDF:
from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer()
x = v.fit_transform(intent_data["sentence"])
如何获取新句子的TF-IDF,然后使用它获得余弦相似度来查找与用户键入的句子最相关的文档(句子)? 注意:我知道数据框示例的句子很短,但仅用作示例。