特征权重学习算法的分类

时间:2014-01-17 07:09:36

标签: machine-learning classification feature-selection

我正在从事多分类任务。我已成功使用神经网络(2个隐藏层)和支持向量机(SVM)来完成此任务。但是,我想要为每个特征分配实际权重。

由于SVM和NN都没有显式生成权重,有没有办法计算它们?

我认为逻辑回归不会起作用,因为特征空间很高(大约20多个特征)并且问题是非线性的。如果我错了,请纠正我。

建议是否有任何其他分类算法可以给我权重并且具有与NN / SVM类似的性能。

Feature Space
x1,x2,x3........................... x25   --- class1
x1,x2,x3........................... x25   --- class2
x1,x2,x3........................... x25   --- class3

这些功能属于不同的域,例如(文本,滚动移动,花费的时间,没有图像/链接等)

分类后,我想了解每个特征在分类过程中的加权方式??

3 个答案:

答案 0 :(得分:2)

“权重”在涉及机器学习问题时是一个非常模糊的术语,可以在很多情况下使用。

如果您已经在使用NN,并且想知道每个特征对神经网络的分类效果有多大贡献,请在删除给定特征的情况下测量净性能,并根据性能的降低来衡量重量。

如果您只想了解哪些功能更重要,那么您一定要运行逻辑回归。事实上,它根本不受线性问题的限制。 (我猜你从维基百科文章的图片中得到了这个想法,但如果你想了整个回归系列,那只是一个标志。)

同样在机器学习领域,20多个功能通常被认为是微不足道的。大量的功能将是几千个。

答案 1 :(得分:1)

如果在输出中使用神经网络概率 - 使用softmax输出层并最大限度地减少交叉熵损失 - 您可以评估训练数据或某些保持数据的可能性。这允许您将不同模型与模型固有的共同评估度量进行比较,方法与逻辑回归相同(尽管您无法对权重进行标准显着性检验)。

使用逻辑回归来计算这些有意义分数的问题是,统计中隐含的数据模型不是用于实际预测的数据模型,因此他们并没有真正告诉您有关模型的任何信息

老实说,我会说使用您真正关心的评估指标是正确的事情。如果你真的需要进行显着性测试,我会认为你可以做一些自举/重采样/基于MCMC的方案来计算p值或间隔。

答案 2 :(得分:0)

After classification, I want to understand how each feature is weighted during classification??

我不确定你的意思是在分类时说的。如果我完全理解评论, removing specific sets of features and measuring classification results ,由ffriend添加,可以说明情况。但我认为您可以在不进行任何分类的情况下对您的功能进记住PCA。您提取一系列特征值,并根据它们的大小保留相应的特征向量。使用相同的逻辑,您可以使用所有特征值作为权重。请注意您的数据与相应的特征值之间的对应关系。

我希望我不会超出这个问题的范围。

谢谢。