Question

我正在尝试为包含数字和文本功能的数据集创建预测模型（或分类）使用Tf-IdfVectorizer，我设法将文本列转换为列表所以text列中的每个单元格都是一个浮点数列表，例如 [0.0 0.3567 0.0 0.0]（没有逗号）。我的目标功能是一组类。每行可以有多个值，例如

[a, b, c, 1]
[1, d]
[]

问题是如何预处理目标变量以便我的模型进行分类预测？我尝试过标签编码，但它为每一行创建了新的编码，因此相同的整数被编码到不同行的不同类中。

我打算接受超过特定阈值的每一行的所有预测。有没有一个模型也支持这个？非常感谢提前

Answer 1

一种方法是针对每个标签单独训练分类器（无论每个样本是否具有某个标签，它都将是二进制分类）。另一个想法是二进制化标签并进行多类分类，但最后删除softmax函数（它将日志概率归一化为1）并为每个标签应用逻辑损失。

Keras在这里很容易使用。