我使用python scikit-learn包所以任何使用scikit学习功能的演示都会非常感激:)
现在我有几种类型的生物医学数据:临床数据(包括治疗信息和生存状态),DNA甲基化数据,miRNA和RNA表达数据。每种数据类型包含大约300个患者样本和50个正常(对照)样本。我想使用几种机器学习算法将这些数据一起输入,并训练模型,以便它可以根据给定的数据预测患者的生存。这意味着,如果我们提供患者的临床信息,DNA甲基化,miRNA和RNA表达,我们可以判断患者是否会死亡或能够存活一段时间(优选地,在应用某些靶向治疗后)。
现在我有一些重要的问题:
1.由于样本的大小差异很大,我如何对这些数据进行分组并提供算法?例如,如果进行聚类,我该如何对齐它们?
samples I got
有许多甲基化,miRNA和RNA的探针,每种都有一千多个。有没有办法过滤掉重要的功能(probs),只根据这些数据训练模型?或者甚至更好,在使用所有数据训练模型后,模型能否告诉我哪些特征在大量特征中很重要? scikit-learn预处理方法是否足以完成此步骤?
如果问题令人困惑,我在这里想出了一个例子。让我们说如果我能过滤掉一些基因,如果检测到一个基因的甲基化水平,miRNA或RNA水平异常,那么我们可以说这个病人好像要治愈或死亡。
3.有没有办法将几种算法组合在一起?例如,使用聚类对所有特征进行分类,然后在随机林/ PCA算法中输入结果一起得到模型?
我没有系统地学习机器学习,所以在尝试使用它时我感到非常困惑。我想我应该使用无监督算法。这是对的吗?