我有一个由5亿个时间序列点组成的数据集(来自200.000位患者的数据)。有12个主要类别(疾病类型),每个类别有3个子类别(给定疾病的疾病严重性级别)。
我需要将许多二进制分类器组合到一个分类器中,因为训练多分类器将占用大量计算资源。
问题
输入要素之一是分类变量(500个不同的职业)。每个数据点都有一个指定的类别,并且不同类别内的数据点之间没有关联。大多数类别中的班级分布高度不均匀。
我正在考虑对这个问题进行建模的两种方法之一:
方法a 在训练过程中使用一键编码训练多个二进制分类器,以涵盖所有类别。
方法b 删除类别变量,并训练几组多个二进制分类器。每轮培训仅包含一个类别的数据点。
是否存在理论上需要事先知道的论点,两种方法中的哪一种将产生最高的模型灵敏度?