使用sklearn将分类变量(性别)添加到用于多类分类的稀疏矩阵

时间:2016-06-16 18:06:01

标签: python nlp scikit-learn sparse-matrix

我正在使用sklearn构建多类分类模型。我正在将我的推文转换为571x1815类型的稀疏矩阵,其中34737存储元素采用压缩稀疏行格式。我试图根据推文的历史来预测年龄组,但我想在我的稀疏矩阵中添加一个外生的分类变量(性别),他们使用决策树或随机森林来做我的预测。如何将矢量添加到稀疏矩阵?

def vectorize(df):
bow_transformer = CountVectorizer(tokenizer=nltk.word_tokenize,token_pattern="[a-zA-Z]{2,15}",stop_words="english",
                                  ngram_range=(1, 2),min_df=.01, max_df=.5,max_features=1815)#3000
bow_transformer.fit(df)
messages_bow = bow_transformer.transform(df)
tfidf_transformer = TfidfTransformer().fit(messages_bow)
messages_tfidf = tfidf_transformer.transform(messages_bow)
return messages_tfidf  

picture of the pandas Dataframe

0 个答案:

没有答案