我有(将有)数据,如下所示:
Individual Nuk Name Position Individual.1 Nuk.1 Name.1 Position.1
Ind 1 A Locus_1988 23 Ind 1 A Locus_3333 15
Ind 2 A Locus_1988 23 Ind 2 G Locus_3333 15
Ind 3 G Locus_1988 23 Ind 3 A Locus_3333 15
Ind 4 G Locus_1988 23 Ind 4 - Locus_3333 15
Ind 5 A Locus_1988 23 Ind 5 G Locus_3333 15
Ind 6 G Locus_1988 23 Ind 6 G Locus_3333 15
Ind 1 C Locus_1988 23 Ind 1 C Locus_3333 18
Ind 2 T Locus_1988 23 Ind 2 C Locus_3333 18
Ind 3 T Locus_1988 23 Ind 3 T Locus_3333 18
Ind 4 C Locus_1988 23 Ind 4 - Locus_3333 18
Ind 5 - Locus_1988 23 Ind 5 C Locus_3333 18
Ind 6 T Locus_1988 23 Ind 6 T Locus_3333 18
Ind 1 T Locus_2301 12 Ind 1 T Locus_4123 38
Ind 2 T Locus_2301 12 Ind 2 T Locus_4123 38
Ind 3 A Locus_2301 12 Ind 3 - Locus_4123 38
Ind 4 - Locus_2301 12 Ind 4 A Locus_4123 38
Ind 5 A Locus_2301 12 Ind 5 A Locus_4123 38
Ind 6 T Locus_2301 12 Ind 6 T Locus_4123 38
Ind 1 G Locus_2301 31 Ind 1 G Locus_4123 52
Ind 2 C Locus_2301 31 Ind 2 C Locus_4123 52
Ind 3 C Locus_2301 31 Ind 3 G Locus_4123 52
Ind 4 G Locus_2301 31 Ind 4 C Locus_4123 52
Ind 5 - Locus_2301 31 Ind 5 C Locus_4123 52
Ind 6 G Locus_2301 31 Ind 6 - Locus_4123 52
数据建立为成对的基因座(因此在上面,例如Locus_1988和Locus_3333是一对)。对于一对中的每个位置,我需要在Nuk上进行四游戏测试(FGT),即测试来自四个可能的字母GCAT的任何给定双字母组合的所有可能的2对组合。
因此,对于上述数据,对于Locus_1988 Position 23 + Locus_3333 Position 15
对,存在的组合为AA AG GA G- AG GG
。由于存在组合AA,AG,GA和GG,该对将通过FGT),并且这需要被注册(即,在new_column中具有1)。
上述数据中的下一组是Locus_1988 Position 23 + Locus_3333
位置18具有以下组合:CC TC TT C- -C TT
。由于缺少CT组合,该组将不会通过FGT(在new_column中注册为0)。
你将如何进行这项测试?
有许多基因座,每个基因座中有许多(30个)个体,并且在一些但不是所有基因座内的几个位置都要进行测试。
我在想,应该可以按照以下方式构建测试:
if(grepl("AG" & "GA" & "AA" & "GG" | "AC" & "CA" & "AA" & "CC" | "AT" & "TA" & "AA" & "TT" | "CT" & "TC" & "CC" & "TT" | "CG" & "GC" & "CC" & "GG" | "GT" & "TG" & "GG" & "TT", data="combination of the two columns")) print("1") else print("0")
但我显然不允许使用& |运营商。 另外,我首先要参考名称,然后参考位置,弄清楚如何指定这样做有很多麻烦。 您是否会在新列中为每个组指定一个唯一的名称(如下所示),并指定对每个组进行测试?
Individual Nuk Name Pos Individual.1 Nuk.1 Name.1 Pos.1 Grp
Ind 1 A Locus_1988 23 Ind 1 A Locus_3333 15 1
Ind 2 A Locus_1988 23 Ind 2 G Locus_3333 15 1
Ind 3 G Locus_1988 23 Ind 3 A Locus_3333 15 1
Ind 4 G Locus_1988 23 Ind 4 - Locus_3333 15 1
Ind 5 A Locus_1988 23 Ind 5 G Locus_3333 15 1
Ind 6 G Locus_1988 23 Ind 6 G Locus_3333 15 1
Ind 1 C Locus_1988 23 Ind 1 C Locus_3333 18 2
Ind 2 T Locus_1988 23 Ind 2 C Locus_3333 18 2
Ind 3 T Locus_1988 23 Ind 3 T Locus_3333 18 2
Ind 4 C Locus_1988 23 Ind 4 - Locus_3333 18 2
Ind 5 - Locus_1988 23 Ind 5 C Locus_3333 18 2
Ind 6 T Locus_1988 23 Ind 6 T Locus_3333 18 2
Ind 1 T Locus_2301 12 Ind 1 T Locus_4123 38 3
Ind 2 T Locus_2301 12 Ind 2 T Locus_4123 38 3
Ind 3 A Locus_2301 12 Ind 3 - Locus_4123 38 3
Ind 4 - Locus_2301 12 Ind 4 A Locus_4123 38 3
Ind 5 A Locus_2301 12 Ind 5 A Locus_4123 38 3
Ind 6 T Locus_2301 12 Ind 6 T Locus_4123 38 3
Ind 1 G Locus_2301 31 Ind 1 G Locus_4123 52 4
Ind 2 C Locus_2301 31 Ind 2 C Locus_4123 52 4
Ind 3 C Locus_2301 31 Ind 3 G Locus_4123 52 4
Ind 4 G Locus_2301 31 Ind 4 C Locus_4123 52 4
Ind 5 - Locus_2301 31 Ind 5 C Locus_4123 52 4
Ind 6 G Locus_2301 31 Ind 6 - Locus_4123 52 4
我认为这可以循环完成,但我担心这可能需要很长时间才能处理,因为我有很多数据。
答案 0 :(得分:1)
按位置和基因座名称拆分数据(df1
):
split1 <- split(df1, list(df1$Name, df1$Position, df1$Name.1, df1$Position.1), drop = TRUE)
创建测试:
do.call(rbind,
lapply(split1, function(x) {
all_letters <- union( x$Nuk, x$Nuk.1 )
all_letters <- all_letters[all_letters != "-"]
letter_comb <- expand.grid(all_letters, all_letters, stringsAsFactors = FALSE)
data.frame(
FGT = all(
sapply( seq_len(nrow(letter_comb)), function(i) {
any(x$Nuk == letter_comb[i,1] & x$Nuk.1 == letter_comb[i,2])
})
),
Name = x$Name[1], Position = x$Position[1],
Name.1 = x$Name.1[1], Position.1 = x$Position.1[1]
)
})
)
结果:
# FGT Name Position Name.1 Position.1
# Locus_1988.23.Locus_3333.15 TRUE Locus_1988 23 Locus_3333 15
# Locus_1988.23.Locus_3333.18 FALSE Locus_1988 23 Locus_3333 18
# Locus_2301.12.Locus_4123.38 FALSE Locus_2301 12 Locus_4123 38
# Locus_2301.31.Locus_4123.52 TRUE Locus_2301 31 Locus_4123 52