我是机器学习的新手,在计划的分析中遇到一个阶段的问题。我正在尝试使用ML处理我的一些EEG数据,以确定继续发展自闭症的婴儿大脑中哪些功能连接网络发生了变化。预测器/响应将是行为“ ASD得分”,并且大约300个连接性值将用作功能。样本数量=63。
通过研究文献中的类似方法并将其应用于我的问题,我的计划是:
1)执行交叉验证的特征选择(确定300个模型中哪个对我的模型最有用)。
2)使用留一法训练训练向量回归模型,以确定模型是否可以预测以后的行为性ASD得分。
3)使用beta权重来确定哪些神经连接最能“预测”以后的ASD得分。
我真的很努力地从第2步过渡到第3步...我知道我不能简单地检查哪些连接与整个样本中的行为相关联,并使用这些连接来训练一个单出模型... < / p>
到目前为止,我最好的方法是在Matlab中使用带有一个单独分区的sequencefs。我觉得这还是有偏见的,因为从我可以收集到的数据来看,B)每N = 63个训练样本/折叠都会建立一个特征子集,从而最大程度地降低MSE,并且B)从N = 63个折叠中选择特征子集最小的MSE ....因此,选择一个特征子集将代表一个主题遗漏的折叠,这似乎类似于基于整个样本选择连接?