我有两组数据供我调查。第一个是给定不同“细胞状态”的基因/基因组相关数据。第二组数据将基因与生物途径联系起来。我相信我的问题是关系数据库一个。
'如何显示与一个数据帧相关的数据并将其与另一个数据帧相关联。换句话说,我想绘制细胞状态数据并将其与途径及其特定基因联系起来。 (我认为在图片中就是这样。)
来自affymetrix基因芯片的 dataframe1 - 数据
基因,细胞状态1,细胞状态2 ...
gene1,x1,y1,...
gene2,x2,y2,...
gene.x,...... ...
“1”“gene”“log_b”“log_b_rich”“Fc_cdt_rich_tot”“fc_Etoh_CDT_tot_mono”“fc_Etoh_CDT_tot_poly”“fc_Etoh_CDT_mono_poly”“fc_Etoh_Rich_tot_mono”“fc_Etoh_Rich_tot_poly”“fc_Etoh_Rich_mono_poly”
“2”“PHF13” -2.712616698 -1.47923545 -0.791138043 -0.549610558 0.143808182 0.69341874 0.320812876 1.089260116 0.76844724
“3”“SPSB1”-1.808348454 -1.965601198 -1.349135752 -0.780105329 0.410647447 1.190752776 0.587287796 1.260350195 0.673062399
dataframe2 - 来自kegg db的数据
途径1,基因-x1,基因-x2,...
途径2,基因-y1,基因-y2,...
途径3,基因-z1,...
“1”“KEGG_GLYCOLYSIS_GLUCONEOGENESIS”“PHF13”“LDHB”“LDHA”“PGAM1”“ADH1C”“PGAM2”“ADH1B”“ADH1A”“ACSS2”“PDHB” “ACSS1”“PGAM4”“PDHA2”“PDHA1”“LDHAL6B”“PFKL”“LDHAL6A”“FBP1”“PFKP”“ALDH3B2”“FBP2”“PFKM”“ALDH3B1”“PGM2”“G6PC”“ALDH7A1”“ALDH1B1 “”PKM2“”PGM1“”DLD“”PKLR“”ALDH9A1“”ALDOA“”ALDOC“”ALDOB“”ADH5“”HK2“”HK1“”ADH6“”ADH7“”ALDH3A2“”G6PC2“”ALDH3A1“” GALM“”TPI1“”AKR1A1“”ADH4“”HK3“”ALDH1A3“”ENO2“”ENO3“”GAPDH“”ENO1“”BPGM“”DLAT“”PCK2“”PCK1“”GPI“”GCK“”ALDH2“ “PGK1”“PGK2”
“2”“KEGG_CITRATE_CYCLE_TCA_CYCLE”“PHF13”“OGDHL”“OGDH”“PDHB”“IDH3G”“LOC283398”“IDH2”“IDH1”“PDHA2”“PDHA1” “SUCLA2”“FH”“DLST”“ACO2”“SUCLG2”“ACO1”
“PHF13”会突出显示,以显示每个步骤的相关性。
我想做的是,看看'cell-state1'(in-)是否激活了'cell-state2'的不同基因/途径。此外,我想测试特定通路的细胞状态1 Vs 2之间的相关性(t检验和可能图形)。
我的问题是,哪些命令或方法可以让我最容易/最有效地做到这一点:合并或使用虚拟变量?
HTH
答案 0 :(得分:0)
我想做的是,看看'cell-state1'(in-)是否从'细胞状态2'激活不同的基因途径。
这听起来像你需要的是因子分析。你可以向statistics.stackexchange.com的好人询问这个问题。