在Gensim中对单个文档使用单个查询的文本相似性评分

时间:2018-10-31 05:15:59

标签: python gensim tf-idf

我想做的是在单个文档/文本/段落中获得搜索/查询词的可能性得分。

分数应表明文本在谈论查询字词的程度。

这是我尝试过但失败的事情:

def score(text_data,query):

    texts = [str(doc).encode('utf-8').lower().split() for doc in text_data]

    dictionary = Dictionary(texts)
    corpus = [dictionary.doc2bow(line) for line in texts]

    tfidf_model = TfidfModel(corpus)

    query_vec = dictionary.doc2bow(query.lower().split())
    query_vec = tfidf_model[query_vec]

    index = similarities.MatrixSimilarity(tfidf_model[corpus])

    x = tfidf_model[query_vec]
    sims = index[x]
    score = list(sims)

    return score

我只需要文本数据中搜索词似然的1个值(介于0到1之间)即可。

0 个答案:

没有答案