应用错误收集

我使用python scikit-learn包所以任何使用scikit学习功能的演示都会非常感激:)
现在我有几种类型的生物医学数据：临床数据（包括治疗信息和生存状态），DNA甲基化数据，miRNA和RNA表达数据。每种数据类型包含大约300个患者样本和50个正常（对照）样本。我想使用几种机器学习算法将这些数据一起输入，并训练模型，以便它可以根据给定的数据预测患者的生存。这意味着，如果我们提供患者的临床信息，DNA甲基化，miRNA和RNA表达，我们可以判断患者是否会死亡或能够存活一段时间（优选地，在应用某些靶向治疗后）。
现在我有一些重要的问题：
1.由于样本的大小差异很大，我如何对这些数据进行分组并提供算法？例如，如果进行聚类，我该如何对齐它们？ samples I got
有许多甲基化，miRNA和RNA的探针，每种都有一千多个。有没有办法过滤掉重要的功能（probs），只根据这些数据训练模型？或者甚至更好，在使用所有数据训练模型后，模型能否告诉我哪些特征在大量特征中很重要？ scikit-learn预处理方法是否足以完成此步骤？
如果问题令人困惑，我在这里想出了一个例子。让我们说如果我能过滤掉一些基因，如果检测到一个基因的甲基化水平，miRNA或RNA水平异常，那么我们可以说这个病人好像要治愈或死亡。
3.有没有办法将几种算法组合在一起？例如，使用聚类对所有特征进行分类，然后在随机林/ PCA算法中输入结果一起得到模型？
我没有系统地学习机器学习，所以在尝试使用它时我感到非常困惑。我想我应该使用无监督算法。这是对的吗？

什么机器学习算法适合同时挖掘各种类型的数据？

0 个答案: