Question

18个细胞系分为两组 - 三联体和Pos。基因列为列，细胞系为行。我已经生成了一个数据框，其中包含wilcoxon测试pvalues，中位差和Triple和Pos之间的倍数变化。我需要一个列，它告诉我基因> 0的“三重”细胞系的数量。也就是说，它应该告诉我在“三重”细胞系中特定基因> 0的次数。这是一个代表性数据。我怎么能在R？中做到这一点？

    Subtype A1BG    A1CF    A2LD1   A2M A2ML1   A3GALT2 A4GALT  A4GNT
MCF7    Pos 0   0   0   22.8    0   0   0   0
MDA_231 Triple  0   0   0   0   0   0   0   0
SKBR3   Pos 0   0   0   1.69    1.69    0   0   0
HCC1954 Pos 0   0   0   0   0   0   0   0
HCC1143 Triple  0   0   0   1.45    0   0   0   0
BT474   Pos 0   0   0   1.9 0   0   0   0
HCC1500 Pos 0   0   0   0   0   0   0   0
T47D    Pos 0   0   0   1.32    0   0   0   0
ZR75-1  Pos 0   0   0   0   0   0   0   0
HCC1937 Triple  0   0   0.79    33.76   0   0   0   0
HCC1599 Triple  0   0   0   0   0   0   0   0
HCC202  Pos 0   0   0.9 5.43    0   0   0   0
HCC1806 Triple  0   0   0   0   0   0   0   0
MDA-468 Triple  0   0   1.02    3.41    0   0   0   0
HCC2218 Pos 0   0   2.08    1.39    0   0   0   0
HCC70   Triple  0   0   0   3.67    29.76   0   0   0
HCC1187 Triple  0.7 0   1.75    4.21    0   0   0   0
Hs578T  Triple  0   0   0.84    1.26    0   0   0   0
BT549   Triple  0   0   0.64    0.64    0   0   0   0

Answer 1

原始帖子中的格式有点奇怪，但我认为如下：

df$gt0 <- apply(df[-1]>0, 1, sum)

会将除第一列之外的每个条目与零进行比较。然后它会将实际的次数相加，并且对于每一行，将其追加为列gt0。无论子类型如何，它都将为所有行计算：如果您只想对子类型＆＃34; triple＆＃34;进行计算，那么df <- subset(df, Subtype=="Triple")会将数据集减少到相关行。

虽然当你说＆＃34;特定的基因＆＃34;时，它让我想知道你是否需要一个行的总结：

apply(df[df$subType=="Triple",-1]>0, 2, sum)

需要计算癌细胞系表达数据中基因> 0的次数（R统计）

1 个答案: