特征选择,特征提取,特征权重之间的差异

时间:2010-01-29 16:26:49

标签: parallel-processing nlp nltk stanford-nlp

我对“特征选择/提取器/权重”的含义以及它们之间的区别感到有些困惑。当我阅读文献时,有时候我会感到迷茫,因为我发现这个术语使用得非常松散,我的主要关注点是 -

  1. 当人们谈论特征频率,特征存在时 - 它是否是特征选择?

  2. 当人们谈论信息增益,最大熵等算法时,它仍然是特征选择。

  3. 如果我训练分类器 - 使用要求分类器记录文档中单词位置的功能集作为示例 - 是否还会调用此功能选择?

  4. 由于 Rahul Dighe

3 个答案:

答案 0 :(得分:17)

的Rahul -

所有这些都是很好的答案。我要提到的一件事是,选择和提取之间的根本区别与你如何处理数据有关。

功能提取方法具有变革性 - 即您正在对数据应用转换以将其投影到具有较低维度的新要素空间。 PCA和SVD就是这方面的例子。

要素选择方法根据某些条件从原始集中选择要素,信息增益,关联和互信息只是用于过滤掉不重要或冗余要素的标准。被称为嵌入式或包装器的方法可以使用专门的分类器来实现特征选择并同时对数据集进行分类。

给出了问题空间的一个非常好的概述here

祝你好运!

答案 1 :(得分:8)

特征提取:通过(线性或非线性)降低维数 线性投影D维向量到d维 载体(d

特征选择:通过选择子集来减少维度 原始变量。 示例:前向或后向特征选择

答案 2 :(得分:6)

特征选择是从集合中选择“有趣”特征以进行进一步处理的过程。

特征频率就是特征出现的频率。

信息增益,最大熵等是加权方法,使用特征频率,进而允许您执行特征选择。

这样想:

您解析语料库,并创建术语/文档矩阵。该矩阵最初是作为术语的计数,以及它们出现的文档(简单频率)。

为了使该矩阵更有意义,您可以根据某些函数(包括术语频率 - 逆文档频率,信息增益,最大熵)对术语进行加权。现在,该矩阵包含权重,或每个术语相对于矩阵中其他术语的重要性。

完成后,您可以使用功能选择仅保留最重要的术语(如果您正在执行分类或分类等操作)并执行进一步分析。