我想做的是在单个文档/文本/段落中获得搜索/查询词的可能性得分。
分数应表明文本在谈论查询字词的程度。
这是我尝试过但失败的事情:
def score(text_data,query):
texts = [str(doc).encode('utf-8').lower().split() for doc in text_data]
dictionary = Dictionary(texts)
corpus = [dictionary.doc2bow(line) for line in texts]
tfidf_model = TfidfModel(corpus)
query_vec = dictionary.doc2bow(query.lower().split())
query_vec = tfidf_model[query_vec]
index = similarities.MatrixSimilarity(tfidf_model[corpus])
x = tfidf_model[query_vec]
sims = index[x]
score = list(sims)
return score
我只需要文本数据中搜索词似然的1个值(介于0到1之间)即可。