我有从机器(流数据)中提取的非常大的数据集,其中大多数数据属于一个类别。如果我使用当前数据训练分类器,则准确度将非常低。如何识别给定数据中的关键功能?另外,我如何衡量时间序列中某些先前特征的概率?
答案 0 :(得分:0)
识别重要特征的典型方法包括PCA和ICA。但是,比这些方法更有价值的是了解数据所代表的底层系统。
答案 1 :(得分:0)
如果没有关于数据结构的更多信息,很难回答。最佳分类方法取决于数据结构和分析目标。有一些分类器可以很好地处理偏斜的数据,我建议你看看一些集成方法,如增强和随机或旋转森林。其中一些分类方法(如轮换森林)提供有关变量重要性的信息,作为培训过程的一部分。如果您只想确定哪些功能最重要,可以尝试使用CART /随机林。但是,如果您需要详细的帮助,我强烈建议您提供有关数据结构的更多信息以及您希望实现的目标。