Question

我正在尝试使用scikit-learn建立一个预测模型（随机森林，sgd等），似乎每个模型都只允许您容纳文本数据，例如

classifier.fit(X,Y)

......，其中Y是目标，X是文本特征向量（count_vec-> tf_idf）。有什么办法可以建立一个模型，该模型除了文本特征矩阵外还包含多个分类变量？我可以简单地将它们作为新列追加到X的右侧吗？

Answer 1

您将需要首先转换类别数据-将字符串类别简单地附加到功能提取器（例如TfIdfCountVectorizer）的数字值中将不起作用。这是SO question and answer的有关将类别转换为数字特征数据的信息，您可以将其附加到右侧。