我正在尝试使用scikit-learn建立一个预测模型(随机森林,sgd等),似乎每个模型都只允许您容纳文本数据,例如
classifier.fit(X,Y)
......,其中Y
是目标,X
是文本特征向量(count_vec-> tf_idf)。有什么办法可以建立一个模型,该模型除了文本特征矩阵外还包含多个分类变量?我可以简单地将它们作为新列追加到X
的右侧吗?
答案 0 :(得分:0)
您将需要首先转换类别数据-将字符串类别简单地附加到功能提取器(例如TfIdfCountVectorizer)的数字值中将不起作用。这是SO question and answer的有关将类别转换为数字特征数据的信息,您可以将其附加到右侧。