使用机器学习确定哪些因素很重要

时间:2019-06-15 11:54:15

标签: python machine-learning

我在机器学习方面经验不足,但是我想学习,并且为了提高自己的技能,我目前正在尝试将自己学到的东西应用到自己的研究数据集中。

我有一个77行和308列的数据集。每行对应一个样本。 308列中的305列提供了有关浓度的信息,一列告诉该列是否属于A,B,C或D组,一列告诉它是X还是Y样品,一列最终告诉您输出是否成功或不。考虑到各组和样品类型之间的差异,我想确定哪些浓度会显着影响产量。我已经尝试了多种方法(功能选择,分类等),但是到目前为止,我没有得到所需的输出

因此,我的问题是,考虑到数据集相对较小并且77个样本中只有15个样本的输出“不成功”,人们是否对如何解决这个问题有建议/技巧/想法? >

1 个答案:

答案 0 :(得分:1)

计算相关性并将其排序。排序后,选择10-15个类别/功能。