最简单的特征选择算法

时间:2011-03-07 17:10:57

标签: algorithm machine-learning data-mining semantic-analysis

我正在尝试创建自己的简单特征选择算法。我要使用的数据集是here(非常着名的数据集)。有人可以给我指示如何这样做吗?

我打算为文本分类编写一个特征排名算法。这是对电影评论的情感分析,将其归类为正面或负面。

所以我的问题是如何为文本数据集编写简单的特征选择。

4 个答案:

答案 0 :(得分:3)

特征选择方法是一个很大的主题。您可以从以下开始:

  1. Chi square

  2. 相互信息

  3. 学期频率

  4. 等。如果你有时间,请阅读本文:Comparative study on feature selection in text categorization这将对你有所帮助。

    实际实施取决于您预处理数据的方式。基本上它保留计数,无论是哈希表还是数据库。

答案 1 :(得分:2)

当您构建合奏时,

随机功能可以很好地工作。它被称为功能包装。

答案 2 :(得分:0)

以下是一个选项:使用pointwise mutual information。您的功能将是令牌,信息应根据情绪标签进行衡量。小心频繁的单词(停用单词),因为在这种类型的任务中,它们实际上可能是有用的。

答案 3 :(得分:0)

我目前使用这种方法:

计算每个类的数据的平均值和方差。一个好的候选特征应该具有小的方差,并且平均值应该与其他类的平均值不同。

目前只有< 50个功能我手动选择它们。为了实现该过程的自动化,可以计算所有类中平均值的方差,并给予那些具有更大方差的那些更高的优先级。然后,首先选择那些在一个类中具有较小方差的那些。

原因是这不会消除冗余功能。