机器学习,不平衡的非数字变量类很重要

时间:2017-11-28 10:58:04

标签: machine-learning logistic-regression data-science

如果我的数据集中有一个非数字变量,其中包含许多一个类但很少有另一个类,这会导致与目标类不平衡时相同的问题吗?

例如,如果我的一个变量是标题,目的是确定一个人是否肥胖。肥胖班的数据分为50:50,但只有一行标题为“公爵”,这一行是肥胖班。这是否意味着像逻辑回归(在数字编码之后)的算法会开始预测所有Dukes都是肥胖(或者对标题'Duke'有不成比例的权重)?如果是这样,在处理这种情况时,某些算法会更好/更差吗?有没有办法防止这个问题?

1 个答案:

答案 0 :(得分:2)

是的,任何香草机器学习算法都会根据特定特征的信息熵以与数值数据相同的方式处理分类数据。

考虑到这一点,在应用任何机器学习算法之前,您应该分析输入要素并确定每个原因在目标上的解释方差。在您的情况下,如果标签Duke总是被识别为肥胖,那么给定特定数据集是一个非常高的信息特征,并且应该如此加权。

我会通过为该功能添加权重来缓解此问题,从而最大限度地减少它对目标的影响。但是,如果这是其他实例的非常有用的功能,那将是一种耻辱。

可以轻松解决此问题的算法是随机森林(决策树)。您可以删除任何基于此功能的规则是Duke。

在将此功能映射到数字时要非常小心,因为这会对大多数算法对此功能的重要性产生影响。