所以我有一个如下所示的数据框:
Probeset Gene Pathway Sample Sample.PM new.expr.P2 new.expr.PM old.expr.P2 old.expr.PM cor.new cor.old
1554918_a_at_AR_rev1g28_ABCC4_307_01 1554918_a_at ABCC4 AR_rev1g28 307_01 333_01 6.674018 6.662191 7.105638 7.435930 0.92067365 0.96305771
1555039_a_at_AR_rev1g28_ABCC4_307_01 1555039_a_at ABCC4 AR_rev1g28 307_01 333_01 4.966590 5.020825 5.545982 6.203969 0.56201636 0.81544054
1555545_at_AR_rev1g28_KLK2_307_01 1555545_at KLK2 AR_rev1g28 307_01 333_01 3.930649 4.082554 5.571246 5.148168 0.09811576 0.28216848
1568672_at_AR_rev1g28_EAF2_307_01 1568672_at EAF2 AR_rev1g28 307_01 333_01 3.324670 4.065899 4.348135 5.318494 0.39938250 0.43261200
1568673_s_at_AR_rev1g28_EAF2_307_01 1568673_s_at EAF2 AR_rev1g28 307_01 333_01 3.648238 4.110280 4.797246 5.795742 0.69923148 0.78472633
1570025_at_AR_rev1g28_TACC2_307_01 1570025_at TACC2 AR_rev1g28 307_01 333_01 4.604139 4.797917 4.901208 5.260825 0.10345385 0.01099981
我想为每个(唯一)基因找到最好的3个/最差3个相关探针组。 " cor.new" column具有每个Probeset的相关值。 " Probeset"由于一些相同的探针组用于不同途径中的不同基因,因此该柱不是唯一的。
作为基因ABCC4
的示例,最佳相关探针集为1554918_a_at
,最差为1555039_a_at
。
所以基本上每个Gene都有一个列出最佳和最差相关探针集的列表。
提前致谢!