如何在R

时间:2016-10-27 06:09:00

标签: r machine-learning logistic-regression

我的数据集非常不平衡。多数人与少数民族的比例为99:1。我想建立一个能够准确预测少数民族阶级的模型。简单来说,我想进行成本敏感的学习,其中假阴性的成本应高于假阳性的成本。 但我没有在R中找到任何用于逻辑回归的包,它们也会这样做。

任何机构都可以推荐一些具有R代码示例的网站文档来做同样的事情。提前谢谢。

1 个答案:

答案 0 :(得分:1)

对于任何不提供成本选项的算法,您只需对少数类进行过采样即可。例如,如果你想将它们加权5倍,那么只需将它们过采样5倍。

有很多关于如何处理不平衡数据的文献。一般方法包括对少数群体进行过度抽样或对大多数群体进行抽样。此外,您还可以使用更高级的技术,例如SMOTE,它将根据您的少数族裔类别创建合成观察。

在像你这样的高度不平衡的情况下,我发现对大多数人进行过采样和对少数人进行多次采样的组合,以便你得到多个可以平均在一起的模型,可以得到很好的结果。 (基本上,这是改良套袋)