生物学差异或真正受影响的基因。

时间:2017-05-15 12:39:17

标签: python r machine-learning

我是一名生物学学生,在我们的实验室里,我们正在测试一些关于老鼠的药物。在正常状态下,我们有许多组用于生物学重复的基因表达数据: gene replicate 1 replicate2 gene1 -0.842138 -0.701153 gene2 -0.796896 -0.725085 gene3 -0.835920 -0.707572 gene5 -0.702721 -0.724579 gene6 -0.815476 -0.737112 .... gene 20000 each dot represent a gene

在用药物喂养后,我们有一个新的基因表达数据: after medicine treatment

我的问题是,如何将那些真正受影响的基因与那些只是生物学差异(重复之间的差异)分开?

我是机器学习的新手,我相信有监督的学习应该是我的选择,对吧?训练数据是我的重复数据,然后我可以测试药物治疗后每个基因是否可以落入耐受区#34;由重复定义。但我不确定应该使用哪种方法。任何指导都提前得到赞赏。

1 个答案:

答案 0 :(得分:0)

首先欢迎Stack Overflow!其次,我认为应该将此问题移到此处:DataScienceArtificial Intelligence。尽管如此,我会尽力帮助你解答。

我有几个问题,当你回答时,你应该以正确的方式解决这个问题:

  1. 您是如何将数据拆分为培训数据的(您为培训目的使用的整体数据的百分比是多少)?
  2. 您是否为最初引入化学品的基因建立了界限?
  3. 您最初期望的差异是什么?
  4. 测试完成后,方差的边界是否有显着变化?
  5. 您正在考虑使用哪种算法来解决此特定问题?
  6. 您是否打算使用EDA以获得更好的洞察力?
  7. 您是否考虑过使用 K-means 来观察“新药”推出后数据集群的变化情况?
  8. 我个人会计算这些基因的平均值和标准偏差,并在引入药物后也这样做。这可以帮助您了解边界如何变化以及最有可能发生扩散的位置。另外,如果你有选择的话,总是使用EDA(我知道我对此非常有说服力,但它有很多帮助)。我认为这可以帮助您更好地了解您的问题。我希望我帮助过。

    算法的有用链接:Machine Learning Algorithms