我的犯罪分类数据集具有指标功能,例如has_rifle
。
工作是培训和预测数据点是否是罪犯。度量是加权平均绝对误差,其中如果该人是犯罪者,并且模型预测他/她不是,则权重大5
。如果人不是犯罪分子并且模型预测为他/她,则权重为1
。否则,模型正确预测,权重为0
。
我在classif:multinom
的{{1}}中使用了mlr
方法,并将阈值调整为R
。结果并不那么好。 1/6
略胜一筹。虽然两者都不完美。
我想知道哪种方法通常用于这种具有稀疏Adaboost
矩阵的二元分类问题?以及如何通过加权平均绝对误差度量来提高性能?
答案 0 :(得分:0)
处理稀疏数据并非易事。缺乏信息使得难以捕获诸如差异的特征。我建议你搜索子空间聚类方法或更具体的软子空间聚类。最后一个通常标识相关/不相关的数据维度。当您想要提高分类准确性时,这是一种很好的方法。