应用错误收集

如何使用监督学习预先识别大数据集中的关键特征，其中大多数数据属于一个类别

时间：2015-06-25 23:16:56

标签： machine-learning classification

我有从机器（流数据）中提取的非常大的数据集，其中大多数数据属于一个类别。如果我使用当前数据训练分类器，则准确度将非常低。如何识别给定数据中的关键功能？另外，我如何衡量时间序列中某些先前特征的概率？

2 个答案:

答案 0 :(得分：0)

识别重要特征的典型方法包括PCA和ICA。但是，比这些方法更有价值的是了解数据所代表的底层系统。

答案 1 :(得分：0)

如果没有关于数据结构的更多信息，很难回答。最佳分类方法取决于数据结构和分析目标。有一些分类器可以很好地处理偏斜的数据，我建议你看看一些集成方法，如增强和随机或旋转森林。其中一些分类方法（如轮换森林）提供有关变量重要性的信息，作为培训过程的一部分。如果您只想确定哪些功能最重要，可以尝试使用CART /随机林。但是，如果您需要详细的帮助，我强烈建议您提供有关数据结构的更多信息以及您希望实现的目标。