使用文本和数字数据进行多类预测

时间:2017-10-12 22:11:22

标签: pandas machine-learning scikit-learn multiclass-classification

我正在尝试为包含数字和文本功能的数据集创建预测模型(或分类) 使用Tf-IdfVectorizer,我设法将文本列转换为列表 所以text列中的每个单元格都是一个浮点数列表,例如 [0.0 0.3567 0.0 0.0](没有逗号)。 我的目标功能是一组类。每行可以有多个值,例如

[a, b, c, 1]
[1, d]
[]

问题是如何预处理目标变量以便我的模型进行分类预测?我尝试过标签编码,但它为每一行创建了新的编码,因此相同的整数被编码到不同行的不同类中。

我打算接受超过特定阈值的每一行的所有预测。有没有一个模型也支持这个? 非常感谢提前

1 个答案:

答案 0 :(得分:0)

一种方法是针对每个标签单独训练分类器(无论每个样本是否具有某个标签,它都将是二进制分类)。另一个想法是二进制化标签并进行多类分类,但最后删除softmax函数(它将日志概率归一化为1)并为每个标签应用逻辑损失。

Keras在这里很容易使用。