我目前正在处理一个数据集,该数据集可提供有关大公司员工数年的信息。信息包括该雇员是否辞职(每年为True或False),他们所处的税级以及年龄。根据数据集,我绘制了根据年龄划分的退出人群的百分比以及根据其税阶而退出的人群的直角坐标。假设这些数字可以视为某人根据年龄而退出的可能性,以及某人因其税阶而退出的可能性,那么我想找到一种方法来预测某人在给定年龄和税阶的情况下退出的可能性。 >
我不能为此使用数据集,因为它太小并且大多数组合都不会出现在其中(因此,我将所有数据简单地得到0%)。是否可以使用某种模型进行预测?
答案 0 :(得分:0)
一种直接而简单的方法是使用您从年龄和税级中获得的百分比的平均值。缺点是您认为这两个变量都是独立的,并且在决定是否进行加权时具有相同的权重员工是否会辞职。
更好的方法是使用分类器,让您更准确地根据员工的税级和年龄来预测其辞职的可能性。您可以从常见的分类器开始,例如随机森林。