我正在使用sklearn构建多类分类模型。我正在将我的推文转换为571x1815类型的稀疏矩阵,其中34737存储元素采用压缩稀疏行格式。我试图根据推文的历史来预测年龄组,但我想在我的稀疏矩阵中添加一个外生的分类变量(性别),他们使用决策树或随机森林来做我的预测。如何将矢量添加到稀疏矩阵?
def vectorize(df):
bow_transformer = CountVectorizer(tokenizer=nltk.word_tokenize,token_pattern="[a-zA-Z]{2,15}",stop_words="english",
ngram_range=(1, 2),min_df=.01, max_df=.5,max_features=1815)#3000
bow_transformer.fit(df)
messages_bow = bow_transformer.transform(df)
tfidf_transformer = TfidfTransformer().fit(messages_bow)
messages_tfidf = tfidf_transformer.transform(messages_bow)
return messages_tfidf