如何从TfidfVectorizer稀疏矩阵构建嵌入稀疏矩阵?

时间:2020-02-29 15:59:27

标签: scikit-learn sparse-matrix recommendation-engine tfidfvectorizer

我正在构建一个基于内容的推荐系统,并希望为文章标题创建一个嵌入矩阵。 我将TfidfVectorizer应用于所有标题,并获得一个巨大的稀疏矩阵,其形状(文章数,所有标题中的唯一词数)以及每个单词的tfidf值。

from sklearn.feature_extraction.text import TfidfVectorizer    
vectorizer = TfidfVectorizer()
vector_titles = vectorizer.fit_transform(titles_processed)

如何将其转换为具有2列的稀疏矩阵:article_id和tfidf_vector以及每个单词的tfidfs列表?

article_id    tfidf_vector
0             [0, 0.5, 0.333, 0]
1             [0.71, 0, 0.13, 0] 
...           ...  

0 个答案:

没有答案