随机砍伐森林的超参数调整

时间:2019-03-29 04:21:35

标签: amazon-web-services amazon-sagemaker

我习惯于使用以下超参数来训练模型。

  rcf.set_hyperparameters(
        num_samples_per_tree=200,
        num_trees=250,
        feature_dim=1,
        eval_metrics =["accuracy", "precision_recall_fscore"])

有什么最好的方法来选择num_samples_per_tree和num_trees参数。

什么是num_samples_per_tree和num_trees的最佳数字。

1 个答案:

答案 0 :(得分:0)

这两个超参数有很自然的解释,可以帮助您确定HPO的良好起始近似值:

  • num_samples_per_tree-该值的倒数近似于数据集/流中异常的密度。例如,如果将其设置为200,则假定大约0.5%的数据是异常的。尝试浏览数据集以进行有根据的估算。
  • num_trees-RCF模型中的树越多,得分的噪音就越少。也就是说,如果有更多的树报告输入推断点是一个异常,则该点比如果很少的树表明存在异常的可能性更大。

从输入数据集中采样的点总数等于num_samples_per_tree * num_trees。您应确保输入的训练集至少为此大小。

(披露-我helped create SageMaker随机砍伐森林)