Question

我有一个data.frame（9列和5行），如下所示：

 List    Count 
  R472    1   RAP1GDS1    AKT1    ERC1    ZRSR2   SMAD4   ASXL1   NA
  R47     1   TCF12       DICER1  OLIG2   GATA3   CLP1    SMAD4   NA
  R844    2   RNF213      LHFP    MLLT6   TTL    SMARCA4   AKT2   TSC2
  R845    2   MLL         MYH9    FBXW7   VTI1A   CLP1     NF2    PIK3CA
  R975    2   TCF12       ELK4    PDE4DIP FANCG   ZRSR2   FAM123B FCRL4

我想根据“Count”列将数据拆分成组，然后对相应的元素进行比较，找出差异（并注释它们）和相似之处。例如：期望的输出：

 Count1      Common   How_many_similar   Differences   How_many_different
             SMAD4           1            RAP1GDS1             10  
                                            AKT1
                                            ERC1
                                            ....

任何人都可以帮助我吗？

感谢。

Answer 1

缺乏有关输入数据结构的详细信息（dput会很棒！），很难提供准确的信息。毕竟，数据框不允许元素成为列表，也不允许行具有不同数量的列。所以很难说你如何通过计数将输入分成块。

为了进行比较，我建议您将比较的所有数据转换为因子，然后在该因子上使用table来计算每个元素在给定向量中出现的次数。这意味着你必须简单地连接行，并且任何为单个组提供行作为单个向量的数据结构都非常适合这种情况。

拆分并比较拆分元素

1 个答案: