使用文本数据和其他预测变量建立预测模型

时间:2019-08-23 14:48:42

标签: python scikit-learn nlp prediction

我正在尝试使用scikit-learn建立一个预测模型(随机森林,sgd等),似乎每个模型都只允许您容纳文本数据,例如

classifier.fit(X,Y)

......,其中Y是目标,X是文本特征向量(count_vec-> tf_idf)。有什么办法可以建立一个模型,该模型除了文本特征矩阵外还包含多个分类变量?我可以简单地将它们作为新列追加到X的右侧吗?

1 个答案:

答案 0 :(得分:0)

您将需要首先转换类别数据-将字符串类别简单地附加到功能提取器(例如TfIdfCountVectorizer)的数字值中将不起作用。这是SO question and answer的有关将类别转换为数字特征数据的信息,您可以将其附加到右侧。