在R中设计“statistics-Bootstrap”分析

时间:2017-08-25 11:49:40

标签: r statistics-bootstrap

我的目的是提出一个复杂数据结构的bootstrap分析。

数据如下:

structure(list(pos1 = c(5, 15, 25, 40, 80, 5, 18, 22, 38, 84, 
5, 16, 50, 92, 31, 50, 20, 30, 50, 70, 27, 50, 60, 50, 90, 20, 
40, 54, 65, 78, 7, 17, 27, 42, 85, 10, 19, 25, 39, 88, 10, 19, 
55, 93, 32, 54, 22, 35, 52, 72, 29, 55, 65, 55, 95, 22, 46, 57, 
67, 79), pos2 = c(10, 17, 30, 42, 90, 10, 20, 24, 42, 87, 10, 
19, 52, 100, 40, 70, 25, 32, 60, 90, 30, 60, 71, 60, 100, 25, 
50, 50, 69, 90, 19, 27, 39, 49, 99, 20, 29, 30, 49, 92, 20, 29, 
59, 100, 48, 76, 30, 39, 67, 98, 36, 68, 76, 65, 100, 30, 55, 
55, 70, 100), chr = c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 
1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 
1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 
2, 2, 2, 2, 2), ind = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 
3L, 3L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 
4L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 
6L, 6L, 6L, 6L, 6L), .Label = c("A", "B", "C", "D", "E", "F"), class ="factor")), .Names = c("pos1", 
"pos2", "chr", "ind"), row.names = c(NA, -60L), class = "data.frame")

数据$ pos1和数据$ pos2在特定染色体上划定基因组中的特定序列(数据$ chr)。在这个例子中,我刚引入了两条染色体。 data $ ind是个体的列,因此每个个体在两条染色体上都有不同的pos1和pos2。

我想要遵循的流程如下。 1.首先,根据数据,我想获得n个(对于这种情况10个就足够了)3个个体的随机样本(两个染色体的所有pos1和pos2)。要做到这一点就是这段代码:

rohis <- function(dat, ind, n) {
ind <- enquo(ind)
dat %>%
filter(UQ(ind) %in% sample(unique(UQ(ind)), n)) %>%
slice(sample(row_number()))
}
rohis(data, ind, 3)
  1. 然后,使用所有生成的随机样本,我的目的是获得由pos1和pos2分隔的每个序列的bootstrap分数。 pos1 pos2分隔的特定序列的置信度是多少?有两个非常重要的提示。首先,必须对两条染色体中的序列独立进行。其次,必须将两个重叠序列视为相同。
  2. 我希望你能帮助我,因为我不知道应该如何开始

0 个答案:

没有答案