应用错误收集

时间：2016-03-24 18:13:23

标签： machine-learning classification random-forest xgboost gbm

我的犯罪分类数据集具有指标功能，例如has_rifle。

工作是培训和预测数据点是否是罪犯。度量是加权平均绝对误差，其中如果该人是犯罪者，并且模型预测他/她不是，则权重大5。如果人不是犯罪分子并且模型预测为他/她，则权重为1。否则，模型正确预测，权重为0。

我在classif:multinom的{{1}}中使用了mlr方法，并将阈值调整为R。结果并不那么好。 1/6略胜一筹。虽然两者都不完美。

我想知道哪种方法通常用于这种具有稀疏Adaboost矩阵的二元分类问题？以及如何通过加权平均绝对误差度量来提高性能？

答案 0 :(得分：0)

处理稀疏数据并非易事。缺乏信息使得难以捕获诸如差异的特征。我建议你搜索子空间聚类方法或更具体的软子空间聚类。最后一个通常标识相关/不相关的数据维度。当您想要提高分类准确性时，这是一种很好的方法。