我在机器学习方面经验不足,但是我想学习,并且为了提高自己的技能,我目前正在尝试将自己学到的东西应用到自己的研究数据集中。
我有一个77行和308列的数据集。每行对应一个样本。 308列中的305列提供了有关浓度的信息,一列告诉该列是否属于A,B,C或D组,一列告诉它是X还是Y样品,一列最终告诉您输出是否成功或不。考虑到各组和样品类型之间的差异,我想确定哪些浓度会显着影响产量。我已经尝试了多种方法(功能选择,分类等),但是到目前为止,我没有得到所需的输出
因此,我的问题是,考虑到数据集相对较小并且77个样本中只有15个样本的输出“不成功”,人们是否对如何解决这个问题有建议/技巧/想法? >
答案 0 :(得分:1)
计算相关性并将其排序。排序后,选择10-15个类别/功能。