如何使用监督学习预先识别大数据集中的关键特征,其中大多数数据属于一个类别

时间:2015-06-25 23:16:56

标签: machine-learning classification

我有从机器(流数据)中提取的非常大的数据集,其中大多数数据属于一个类别。如果我使用当前数据训练分类器,则准确度将非常低。如何识别给定数据中的关键功能?另外,我如何衡量时间序列中某些先前特征的概率?

2 个答案:

答案 0 :(得分:0)

识别重要特征的典型方法包括PCA和ICA。但是,比这些方法更有价值的是了解数据所代表的底层系统。

答案 1 :(得分:0)

如果没有关于数据结构的更多信息,很难回答。最佳分类方法取决于数据结构和分析目标。有一些分类器可以很好地处理偏斜的数据,我建议你看看一些集成方法,如增强和随机或旋转森林。其中一些分类方法(如轮换森林)提供有关变量重要性的信息,作为培训过程的一部分。如果您只想确定哪些功能最重要,可以尝试使用CART /随机林。但是,如果您需要详细的帮助,我强烈建议您提供有关数据结构的更多信息以及您希望实现的目标。