我正在构建一个基于内容的推荐系统,并希望为文章标题创建一个嵌入矩阵。 我将TfidfVectorizer应用于所有标题,并获得一个巨大的稀疏矩阵,其形状(文章数,所有标题中的唯一词数)以及每个单词的tfidf值。
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vector_titles = vectorizer.fit_transform(titles_processed)
如何将其转换为具有2列的稀疏矩阵:article_id和tfidf_vector以及每个单词的tfidfs列表?
article_id tfidf_vector
0 [0, 0.5, 0.333, 0]
1 [0.71, 0, 0.13, 0]
... ...