二进制分类与稀疏二进制矩阵

时间:2016-03-24 18:13:23

标签: machine-learning classification random-forest xgboost gbm

我的犯罪分类数据集具有指标功能,例如has_rifle

工作是培训和预测数据点是否是罪犯。度量是加权平均绝对误差,其中如果该人是犯罪者,并且模型预测他/她不是,则权重大5。如果人不是犯罪分子并且模型预测为他/她,则权重为1。否则,模型正确预测,权重为0

我在classif:multinom的{​​{1}}中使用了mlr方法,并将阈值调整为R。结果并不那么好。 1/6略胜一筹。虽然两者都不完美。

我想知道哪种方法通常用于这种具有稀疏Adaboost矩阵的二元分类问题?以及如何通过加权平均绝对误差度量来提高性能?

1 个答案:

答案 0 :(得分:0)

处理稀疏数据并非易事。缺乏信息使得难以捕获诸如差异的特征。我建议你搜索子空间聚类方法或更具体的软子空间聚类。最后一个通常标识相关/不相关的数据维度。当您想要提高分类准确性时,这是一种很好的方法。