功能选择

时间:2013-03-06 09:16:45

标签: machine-learning data-mining feature-selection

我有文字术语数据,术语为维度。我必须在条款上执行特征选择,并且我打算使用相互信息作为执行特征选择的度量。我怀疑的是,在计算了所有可能的对之间的相互信息后,我们要做什么? 我应该设置一个阈值并选择落在阈值范围内的所有条款吗?

1 个答案:

答案 0 :(得分:1)

如果您想使用互信息,可以考虑使用mRMR algrorithm。您可以使用此类算法选择要素。我的意思是:

You have n features at your data set (it means n dimensions)

如果你想使用最有意义的

k of n (k < n)

您可以使用功能选择(即使用使用互信息背景的mRMR)

决定 k 取决于某些情况。

  • 其中一个是你不想在你身上使用不必要的功能 模型创作。

  • 其他的是你要避免计算成本并删除一些 数据集中的功能

删除某些功能后,您应该测试算法。您检查精确度是否会上升,并且取决于您的目标,即使精度下降,也会因为避免计算成本而导致(因此您可能也想要消除某些功能)

另一方面,我建议你看一下特征提取方法,即PCA和LDA(特别是你的情况)。