我正在尝试为包含数字和文本功能的数据集创建预测模型(或分类)
使用Tf-IdfVectorizer,我设法将文本列转换为列表
所以text列中的每个单元格都是一个浮点数列表,例如
[0.0 0.3567 0.0 0.0]
(没有逗号)。
我的目标功能是一组类。每行可以有多个值,例如
[a, b, c, 1]
[1, d]
[]
问题是如何预处理目标变量以便我的模型进行分类预测?我尝试过标签编码,但它为每一行创建了新的编码,因此相同的整数被编码到不同行的不同类中。
我打算接受超过特定阈值的每一行的所有预测。有没有一个模型也支持这个? 非常感谢提前
答案 0 :(得分:0)
一种方法是针对每个标签单独训练分类器(无论每个样本是否具有某个标签,它都将是二进制分类)。另一个想法是二进制化标签并进行多类分类,但最后删除softmax函数(它将日志概率归一化为1)并为每个标签应用逻辑损失。
Keras在这里很容易使用。