在分类数据上训练多个二元分类器时提高模型敏感性

时间:2018-08-06 09:43:50

标签: categorical-data multiclass-classification

我有一个由5亿个时间序列点组成的数据集(来自200.000位患者的数据)。有12个主要类别(疾病类型),每个类别有3个子类别(给定疾病的疾病严重性级别)。

我需要将许多二进制分类器组合到一个分类器中,因为训练多分类器将占用大量计算资源。

问题

输入要素之一是分类变量(500个不同的职业)。每个数据点都有一个指定的类别,并且不同类别内的数据点之间没有关联。大多数类别中的班级分布高度不均匀。

我正在考虑对这个问题进行建模的两种方法之一:

方法a 在训练过程中使用一键编码训练多个二进制分类器,以涵盖所有类别。

方法b 删除类别变量,并训练几组多个二进制分类器。每轮培训仅包含一个类别的数据点。

是否存在理论上需要事先知道的论点,两种方法中的哪一种将产生最高的模型灵敏度?

0 个答案:

没有答案