我有一个文件,其中包含客户违约贷款的数据。此文件中有许多变量。一个这样的变量是“customer.employername”。该变量具有大约1000多个客户雇主姓名的唯一值。我想在逻辑回归模型中使用这个变量,我想要预测谁将是违约者或非违约者,但由于这个变量有很多分类值,因此很难为这些等级中的每一个创建虚拟变量。为此,我想在R中提出一个决策树算法,我可以将这个“customer.employername”变量的所有级别分成两组 - 第1组(包含那些已默认的客户的所有雇主名称)和第2组(包括那些没有违约的客户的所有雇主名称)。任何人都可以建议我编写这个所需的算法?感谢期待
答案 0 :(得分:0)
您可以考虑RandomForest
。实际上,基于决策树的随机森林 ,但是您不是拥有1个决策树,而是生成决策树的森林以获得给定的目标值,但是您可以通过替换来实现。因此,不是制作1棵树,而是通过使用替换来引导数据集来创建数百。根据我的经验,RandomForest
非常适合使用分类或连续变量,或者两者兼而有之。通常,我通常也会得到非常可重复的结果。此外,该方法在R中得到很好的支持,可以使用许多库。