在数据框中选择重复数据

时间:2011-10-20 20:29:59

标签: r duplicates dataframe binning

早些时候,我问过question有关从数据框中提取重复行的问题。我现在需要运行一个脚本来决定在我的最终数据集中保留哪些重复项。

此数据集中的重复条目具有相同的“分析”和“样本”值。以下是新数据集的前10行,其中包含我的重复条目:

     Assay   Sample    Genotype   Data
1  CCT6-002   1486         A        1
2  CCT6-002   1486         G        0
3  CCT6-002   1997         G        0
4  CCT6-002   1997         NA       NA
5  CCT6-002   0050         G        0
6  CCT6-002   0050         G        0
7  CCT6-015   0082         G        0
8  CCT6-015   0082         T        1
9  CCT6-015   0121         G        0
10 CCT6-015   0121         NA       NA

我想运行一个脚本,根据'Data'的值(可以是1,0或NA)将这些重复样本分成4个bin:

 1) All values for 'Data' are NA
 2) All values for 'Data' are identical, no NA
 3) At least 1 value for 'Data' is not identical, no NA.
 4) At least 1 value for 'Data' is not identical, at least one is NA.

上述数据的预期结果如下所示;

Set 1
Null

Set 2
5  CCT6-002   0050         G        0
6  CCT6-002   0050         G        0

Set 3
1  CCT6-002   1486         A        1
2  CCT6-002   1486         G        0
7  CCT6-015   0082         G        0
8  CCT6-015   0082         T        1

Set 4
3  CCT6-002   1997         G        0
4  CCT6-002   1997         NA       NA
9  CCT6-015   0121         G        0
10 CCT6-015   0121         NA       NA

有些情况下,此数据集中存在2个以上的“重复”数据点。我不确定甚至从哪里开始,因为我是R的新手。

编辑:预期数据。

2 个答案:

答案 0 :(得分:4)

你问了一个问题,这个问题转向了要求别人为你完成整个工作的方向。关于该项目的单个特定部分的问题可能更有可能吸引回应。您正在努力解决的问题是阻止您启动是一项非常基本的编程技能:能够将您的问题分解为小的具体步骤,单独解决每个问题然后再将它们组合在一起以解决您的原始问题< / em>的。

但是,这项技能也很难学。但是你有个好的开始!您已经很好地指定了数据可能属于的四个组:

  1. “数据”的所有值均为NA

  2. “数据”的所有值均为 相同,没有NA

  3. “数据”的至少1个值不相同,不是 NA。

  4. “数据”的至少1个值不相同,至少有一个是 NA。

  5. 现在你需要考虑一下,如果你只有一个数据子集,你能弄清楚如何在R中确定它所在的组(1-4)吗?以下是一些可能对此有用的工具的草图。构建一些子集并在控制台中进行游戏,直到您觉得识别每个组为止:

    (1)datSub$Data NA s的所有值都是?

    工具:allis.na

    (2)只有一个唯一值,而不是NA

    工具:lengthuniqueis.naany

    (3)多个唯一值,没有NA s?

    工具:lengthuniqueanyis.na

    (4)多个唯一值,至少一个NA

    工具:lengthuniqueanyis.na

    可以在不使用所有这些功能的情况下执行此操作,但它们都可能有用。

    一旦您知道如何确定特定子集应该在哪个组中,您就可以将该代码包装到函数中了。我的建议是创建一个值为1-4的新列,具体取决于该子集属于哪个组:

    myFun <- function(x){
        if (...){
            x$grp <- 1
        }
        if (...){
            x$grp <- 2
        }
        #etc.
    
        return(x)
    }
    

    然后使用ddply根据Sample的值将此函数应用于数据的每个子集:

    ddply(dat,.(Sample),.fun = myFun)
    

    最后将此数据框拆分为新的grp变量:

    split(dat,dat$grp)
    

    希望这个一般草图有助于您入门。但是你 会有问题。每个人都这样做。如果您在此过程中遇到特定问题,请随时提出另一个问题。

    事实上,我现在看到John已经按照我的草图发布了答案。但是,无论如何,我都会发布这个答案,希望能帮助你分析未来的问题。

答案 1 :(得分:3)

这应该是一个好的开始。根据您的数据集的长度,优化它以获得更好的速度可能是也可能不值得。

require(plyr)

# Read data
data = read.table('data.txt', colClasses=c(NA, NA, 'character', NA, NA))

# Function to pick set
pickSet <- function(x) {
  if(all(is.na(x$Data))) {
    set = 1
  } else if(length(unique(x$Data)) == 1) {
    set = 2
  } else if(!any(is.na(x$Data))) {
    set = 3
  } else {
    set = 4
  }
  data.frame(Set=set)
}

# Identify Set for each combo of Assay and Sample
sets = ddply(data, c('Assay', 'Sample'), pickSet)

# Merge set info back with data
data = join(data, sets)

# Reformat to list
sets.list = lapply(1:4, function(x) data[data$Set==x,-5])
> sets.list
[[1]]
[1] Assay    Sample   Genotype Data    
<0 rows> (or 0-length row.names)

[[2]]
     Assay Sample Genotype Data
5 CCT6-002   0050        G    0
6 CCT6-002   0050        G    0

[[3]]
     Assay Sample Genotype Data
1 CCT6-002   1486        A    1
2 CCT6-002   1486        G    0
7 CCT6-015   0082        G    0
8 CCT6-015   0082        T    1

[[4]]
      Assay Sample Genotype Data
3  CCT6-002   1997        G    0
4  CCT6-002   1997     <NA>   NA
9  CCT6-015   0121        G    0
10 CCT6-015   0121     <NA>   NA