应用错误收集

一种决策树算法，可以将分类变量的多个级别分成两组

时间：2017-03-27 14:02:20

标签： r decision-tree rpart

我有一个文件，其中包含客户违约贷款的数据。此文件中有许多变量。一个这样的变量是“customer.employername”。该变量具有大约1000多个客户雇主姓名的唯一值。我想在逻辑回归模型中使用这个变量，我想要预测谁将是违约者或非违约者，但由于这个变量有很多分类值，因此很难为这些等级中的每一个创建虚拟变量。为此，我想在R中提出一个决策树算法，我可以将这个“customer.employername”变量的所有级别分成两组 - 第1组（包含那些已默认的客户的所有雇主名称）和第2组（包括那些没有违约的客户的所有雇主名称）。任何人都可以建议我编写这个所需的算法？感谢期待

1 个答案:

答案 0 :(得分：0)

您可以考虑RandomForest。实际上，基于决策树的随机森林，但是您不是拥有1个决策树，而是生成决策树的森林以获得给定的目标值，但是您可以通过替换来实现。因此，不是制作1棵树，而是通过使用替换来引导数据集来创建数百。根据我的经验，RandomForest非常适合使用分类或连续变量，或者两者兼而有之。通常，我通常也会得到非常可重复的结果。此外，该方法在R中得到很好的支持，可以使用许多库。