计算多个组中共享和唯一的标记

时间:2019-02-27 22:00:04

标签: r

我有一组在几种人群中键入的标记。一些标记在组之间共享(可以是所有组或更少的组,例如5个组中只有3个共享标记),而其他标记则是特定人群所独有的。一些人群中可能没有某些标记,但其他人群中却存在。我想计算每个人群所特有的标记。 我有5个单独的文件,列出了每个人群中检测到的标记,输入文件为;

  

Markers_Group_1
  snp1
  snp2
  snp3
  snp4
  snp5
  snp6
  snp7
  snp8
  snp9
  snp10
  snp11 ... snp100

第2组的输入文件可能具有snps 5,6,9,20-70。对于第3至5组也是如此;即它们带有不同的snps组合。因此,如果将所有5个文件合并为一个文件,则某些单元格将为空。

1 个答案:

答案 0 :(得分:1)

我将使用Excel VLookup。

https://support.office.com/en-us/article/vlookup-function-0bbc8083-26fe-4963-8ab8-93a18ad188a1

那可以给你看起来像这样的东西。

ALL MARKERS      File1     File2    File3    File4    last_file_with_marker   COUNT
snp1              snp1      snp1     snp1     snp1           File4               4
snp2              snp2      snp2              snp2           File4               3
snp3              snp3      snp3     snp3                    File3               3
snp4                        snp4                             File2               1
snp5              snp5      snp5     snp5     snp5           File4               4

如果File1在工作表2上,则File1,File2,File3,File4列中所有单元格的公式可能类似于: = VLOOKUP($ A2&“”,Sheet2!Data,1,FALSE)

然后,您可以在下一列中添加一些内容(标题:last_file_with_marker) = LOOKUP(A2,B2:E2,$ B $ 1:$ E $ 1)

还有一个计数列来查找只有一个的那些。 = COUNTIF(B2:E2,A2)

您可以在“计数”列上进行排序,以查找具有唯一标记的标记。