我是一名生物学学生,在我们的实验室里,我们正在测试一些关于老鼠的药物。在正常状态下,我们有许多组用于生物学重复的基因表达数据:
gene replicate 1 replicate2
gene1 -0.842138 -0.701153
gene2 -0.796896 -0.725085
gene3 -0.835920 -0.707572
gene5 -0.702721 -0.724579
gene6 -0.815476 -0.737112
....
gene 20000
each dot represent a gene
在用药物喂养后,我们有一个新的基因表达数据: after medicine treatment
我的问题是,如何将那些真正受影响的基因与那些只是生物学差异(重复之间的差异)分开?
我是机器学习的新手,我相信有监督的学习应该是我的选择,对吧?训练数据是我的重复数据,然后我可以测试药物治疗后每个基因是否可以落入耐受区#34;由重复定义。但我不确定应该使用哪种方法。任何指导都提前得到赞赏。
答案 0 :(得分:0)
首先欢迎Stack Overflow!其次,我认为应该将此问题移到此处:DataScience或Artificial Intelligence。尽管如此,我会尽力帮助你解答。
我有几个问题,当你回答时,你应该以正确的方式解决这个问题:
我个人会计算这些基因的平均值和标准偏差,并在引入药物后也这样做。这可以帮助您了解边界如何变化以及最有可能发生扩散的位置。另外,如果你有选择的话,总是使用EDA(我知道我对此非常有说服力,但它有很多帮助)。我认为这可以帮助您更好地了解您的问题。我希望我帮助过。
算法的有用链接:Machine Learning Algorithms