机器学习 - 特征选择和训练数据

时间:2014-10-30 22:59:48

标签: machine-learning

我已经建立了一个分类器,并希望将其准确度提高到目前的73%以上

我开始使用Chi Square合并功能选择但是如何将选择的功能重新添加到训练数据中以构建分类器?

如果我要对每个训练数据进行比较,只选择功能列表中出现的术语,那会是正确的吗?

我是否也需要对测试集数据做同样的事情,这是不可见的例子?

非常感谢任何建议。

2 个答案:

答案 0 :(得分:1)

简单地说,特征选择基本上是(例如):"在输入向量的5个属性中,只有特征1,3,4是有用的。特色2,5是垃圾。根本不要使用它们#34;。这适用于训练和测试模式,因为它们来自相同的分布。因此,您从训练和测试模式中删除功能2和5,然后以常规方式训练和测试分类器。

更一般地,特征提取点(其是特征选择的超集)是将原始输入向量变换为不同的输入向量,更适合于分类。您将训练和测试模式转换为新形式,实质上是从原始形式创建新问题。请注意,这些值可能会出现在原始模式中(它们可能是由原始模式中的函数和值组合产生的)然后使用新的转换问题来训练和测试分类器

答案 1 :(得分:0)

值得对 blue_note 的答案做一点补充。

为了防止过度拟合并确保您的模型可以概括,您应该在单独的开发集中测试您的功能选择策略。直觉是:如果你尝试了大量不同的模型(即在不同特征子集中训练的分类器),那么很可能一些人在训练集中的表现会比其他人更好。为了确保某个特定模型真的比其他模型更好,您需要在不同的集合中进行测试,并在训练期间看不到示例。