在时间维度,班级失衡和失踪方面训练数据

时间:2019-05-13 11:09:22

标签: r machine-learning time-series classification supervised-learning

我是这个社区的新手,正在从事有监督的机器学习任务。任务是根据客户的持续时间将客户拥有公司产品的长期客户分类为长期关系,其中所有人员超过12个月的客户和非长期关系少于一年的客户基于持续时间。我有许多社会人口学特征,但也有区域和周期性经济因素的变量。我查看了2006年至2014年这段时间的客户数据库。现在,我的问题是: -由于它具有时间维度,我该如何构建培训和测试样本?自从我想要最新的版本以来,我应该将第一年用于培训而将最后一年用于预测吗?随机抽样有用吗? -我有一个班级不平衡的问题,因为长期合作关系的份额约为10%。如果我有足够的观察力,该如何解决这个问题?替代方法,例如平衡精度? -我有大约5%的IST缺失,其中包含一些变量,是否足以为他们创建和拥有指标并删除缺失率低于1%的观察值?

我将选择的方法是逻辑回归和决策树。 支持向量机有很多变量吗? 我还可以使用哪些方法?

我和R ....

0 个答案:

没有答案