我在知名人士Tom Mitchell
的老中考试中看到一个例子如下:
考虑在总共1000个特征的情况下学习分类器。 其中50个是关于课堂的真实信息。另外50个功能是 直接复制前50个功能。最终的900个功能不是 翔实。假设有足够的数据可靠地评估有用程度 功能是,功能选择方法使用良好 阈值。
How many features will be selected by mutual information filtering?
解决方案:100
How many features will be selected by a wrapper method?
解决方案:50
我的挑战是如何实现这些解决方案?我做了很多尝试,但无法理解这背后的想法。
答案 0 :(得分:7)
How many features will be selected by mutual information filtering?
互信息功能选择会评估每个功能的候选资格独立。由于基本上有100个功能真正提供信息,我们最终将通过互信息过滤100个功能。
How many features will be selected by a wrapper method?
包装器方法评估特征的子集,因此它考虑了特征之间的交互。由于50个功能是其他50个功能的直接副本,因此包装方法能够找出条件前50个功能,第二组50个功能未添加任何额外信息。过滤后我们最终得到了50个功能。假设第一组50个要素为A1, A2, ..., A50
,而50个要素的副本为C1, C2, ..., C50
。所选功能的最终结果可能如下所示:
A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.
因此,每个唯一功能只应出现一次(来自A
的功能集或来自C
的功能集)。
答案 1 :(得分:-1)
互信息过滤会选择多少个功能?
如果我们查看问题描述,我们应该只选择50个功能。但是这种过滤是基于与要预测的变量的相关性。而且,互信息过滤的主要缺点之一是,他们倾向于选择冗余变量,因为他们不考虑变量之间的关系。
包装器方法将选择多少个功能?
将其视为所有可能要素子集的空间的启发式搜索方法。根据定义,"包装器方法评估特征的子集,因此它考虑了特征之间的交互。"
示例: Hill Climbing,即一次添加一个功能,直到无法进一步改进为止。
由于我们有50个具有最多信息的功能,其他50个前者和900个功能的副本是或没有用。因此,我们只获得50个功能。