在哪里可以找到在R

时间:2019-03-12 05:27:08

标签: r classification visualization cross-validation mlr

我只是在研究mlr包R。但是我可以找到的所有教程都集中在每个函数的用法上。我希望我能找到一个全面的示例,其中包括建模的所有步骤。

假设有一个数据:

mydata <- data.frame(type=c('a','a','b','b','c','d','d','d','e','a',
                            'a','c','b','e','a','d','w','t','r','a',
                            'b','c','d','w','q','f','d','s','r','r'),
                     value=c(1,2,1,2,1,3,1,2,3,4,
                             5,6,2,4,2,6,7,8,5,3,
                             1,5,6,2,8,6,3,4,6,3),
                     target=c('y','y','n','n','n','n','n','n','n','n',
                              'n','n','n','n','n','n','n','n','n','y',
                              'n','n','n','n','n','n','n','n','y','n'))

您可以看到这是一个不平衡的数据。在目标字段中,只有4行用“ y”表示,而所有其他26行都用“ n”表示。对于分类问题,所有步骤应为:

  1. 将字段“类型”转换为虚拟值
  2. 将数据分为两部分:培训和测试
  3. 对数据进行过采样,以使目标为“ y”的数据量类似于目标为“ n”的数据量。
  4. 分别为随机森林和xgboost设置超级参数集。
  5. 使用交叉验证训练两个模型,假设k折为5。
  6. 比较所有结果以选择最佳模型和最佳参数。
  7. 可视化结果。

通常,这是构建模型的正常过程。现在,我只能创建一个虚拟值:

a <- mydata %>%
  select(-target) %>%
  createDummyFeatures(method = '1-of-n') %>%   
  mutate(target=mydata$target) 

我不知道如何使用mlr建立完整的模型。有人可以帮我提供所有详细信息吗?

1 个答案:

答案 0 :(得分:1)