通过切割rownames将2列数据帧转换为矩阵 - R

时间:2018-02-08 09:30:44

标签: r unix matrix

我在R中有两个数据帧,我想将它们转换为矩阵。这是我的示例数据

包含2列的data.frame dat,其中一列包含名称,第二列包含一些分数。

> head(dat, n=20)
                                                     V1           V2
1                                      4star_Active_TSS  10.99561503
2                               4star_Bivalent_Enhancer   0.42425920
3                             4star_Bivalent_Poised_TSS   0.31163730
4                                       4star_Enhancers 139.64713405
5                             4star_Flanking_Active_TSS  23.11961717
6                       4star_Flanking_Bivalent_TSS_Enh   0.17654506
7                                 4star_Genic_enhancers  44.42394542
8                                 4star_Heterochromatin -34.61099049
9                                   4star_Quiescent_Low -28.54240987
10                             4star_Repressed_PolyComb  -0.42096698
11                           4star_Strong_transcription  12.70895605
12                        4star_Transcr_at_gene_5_and_3   0.00000000
13                        4star_Weak_Repressed_PolyComb   0.08902141
14                             4star_Weak_transcription  19.28859369
15                          4star_ZNF_genes_and_repeats  -1.58340662
16          A549_EtOH_0.02pct_Lung_Carcinoma_Active_TSS  14.01552989
17   A549_EtOH_0.02pct_Lung_Carcinoma_Bivalent_Enhancer   1.00466761
18 A549_EtOH_0.02pct_Lung_Carcinoma_Bivalent_Poised_TSS   1.20607773
19           A549_EtOH_0.02pct_Lung_Carcinoma_Enhancers  63.36004048
20 A549_EtOH_0.02pct_Lung_Carcinoma_Flanking_Active_TSS  48.27400816

其他数据框有一列,包含上述数据框的row.names的半名称。

> states=read.delim("states.txt", header=FALSE)
> states
                          V1
1                 Active_TSS
2          Bivalent_Enhancer
3        Bivalent_Poised_TSS
4                  Enhancers
5        Flanking_Active_TSS
6  Flanking_Bivalent_TSS_Enh
7            Genic_enhancers
8            Heterochromatin
9              Quiescent_Low
10        Repressed_PolyComb
11      Strong_transcription
12   Transcr_at_gene_5_and_3
13   Weak_Repressed_PolyComb
14        Weak_transcription
15     ZNF_genes_and_repeats

我希望得到的矩阵/ data.frame如下所示。我希望切掉第一个data.frame的第一列和第二个data.frame的列,并创建一个类似下面的矩阵。

>dd_matrix
                                 Active_TSS Bivalent_Enhancer
4star                              10.99562         0.4242592
A549_EtOH_0.02pct_Lung_Carcinoma   14.01553         1.0046676
                                 Bivalent_Poised_TSS Enhancers
4star                                      0.3116373 139.64713
A549_EtOH_0.02pct_Lung_Carcinoma           1.2060777  63.36004
                                 Flanking_Active_TSS Flanking_Bivalent_TSS_Enh
4star                                       23.11962                 0.1765451
A549_EtOH_0.02pct_Lung_Carcinoma            48.27401                 1.1449923
                                 Genic_enhancers Heterochromatin Quiescent_Low
4star                                  44.423945      -34.610990     -28.54241
A549_EtOH_0.02pct_Lung_Carcinoma        5.976754       -1.274768     -31.68228
                                 Repressed_PolyComb Strong_transcription
4star                                     -0.420967            12.708956
A549_EtOH_0.02pct_Lung_Carcinoma          -0.331186             3.375022
                                 Transcr_at_gene_5_and_3
4star                                           0.000000
A549_EtOH_0.02pct_Lung_Carcinoma                1.501412
                                 Weak_Repressed_PolyComb Weak_transcription
4star                                         0.08902141           19.28859
A549_EtOH_0.02pct_Lung_Carcinoma             -0.05151471           11.19855
                                 ZNF_genes_and_repeats
4star                                        -1.583407
A549_EtOH_0.02pct_Lung_Carcinoma              0.000000

非常感谢任何帮助。任何Runix解决方案都可以使用。

谢谢。

2 个答案:

答案 0 :(得分:1)

以下是使用dplyr / tidyr的解决方案:

require(tidyverse);
df %>%
    separate(V1, into = c("what","states"), "_", extra = "merge") %>%
    spread(states, V2) %>%
    column_to_rownames("what");
#      Active_TSS Bivalent_Enhancer Bivalent_Poised_TSS Enhancers
#4star   10.99562         0.4242592           0.3116373  139.6471
#A549          NA                NA                  NA        NA
#      EtOH_0.02pct_Lung_Carcinoma_Active_TSS
#4star                                     NA
#A549                                14.01553
#      EtOH_0.02pct_Lung_Carcinoma_Bivalent_Enhancer
#4star                                            NA
#A549                                       1.004668
#      EtOH_0.02pct_Lung_Carcinoma_Bivalent_Poised_TSS
#4star                                              NA
#A549                                         1.206078
#      EtOH_0.02pct_Lung_Carcinoma_Enhancers
#4star                                    NA
#A549                               63.36004
#      EtOH_0.02pct_Lung_Carcinoma_Flanking_Active_TSS Flanking_Active_TSS
#4star                                              NA            23.11962
#A549                                         48.27401                  NA
#      Flanking_Bivalent_TSS_Enh Genic_enhancers Heterochromatin Quiescent_Low
#4star                 0.1765451        44.42395       -34.61099     -28.54241
#A549                         NA              NA              NA            NA
#      Repressed_PolyComb Strong_transcription Transcr_at_gene_5_and_3
#4star          -0.420967             12.70896                       0
#A549                  NA                   NA                      NA
#      Weak_Repressed_PolyComb Weak_transcription ZNF_genes_and_repeats
#4star              0.08902141           19.28859             -1.583407
#A549                       NA                 NA                    NA

说明:通过拆分第一个V1,将"_"分成两列;然后使用spread作为键,states作为值,将V2转换为宽格式,并将列what转换为行名。

样本数据

df <- read.table(text =
    "                                                    V1           V2
1                                      4star_Active_TSS  10.99561503
2                               4star_Bivalent_Enhancer   0.42425920
3                             4star_Bivalent_Poised_TSS   0.31163730
4                                       4star_Enhancers 139.64713405
5                             4star_Flanking_Active_TSS  23.11961717
6                       4star_Flanking_Bivalent_TSS_Enh   0.17654506
7                                 4star_Genic_enhancers  44.42394542
8                                 4star_Heterochromatin -34.61099049
9                                   4star_Quiescent_Low -28.54240987
10                             4star_Repressed_PolyComb  -0.42096698
11                           4star_Strong_transcription  12.70895605
12                        4star_Transcr_at_gene_5_and_3   0.00000000
13                        4star_Weak_Repressed_PolyComb   0.08902141
14                             4star_Weak_transcription  19.28859369
15                          4star_ZNF_genes_and_repeats  -1.58340662
16          A549_EtOH_0.02pct_Lung_Carcinoma_Active_TSS  14.01552989
17   A549_EtOH_0.02pct_Lung_Carcinoma_Bivalent_Enhancer   1.00466761
18 A549_EtOH_0.02pct_Lung_Carcinoma_Bivalent_Poised_TSS   1.20607773
19           A549_EtOH_0.02pct_Lung_Carcinoma_Enhancers  63.36004048
20 A549_EtOH_0.02pct_Lung_Carcinoma_Flanking_Active_TSS  48.27400816", header = T)

答案 1 :(得分:1)

棘手的事情似乎是状态和前缀之间没有分隔符,并且某些状态是其他状态的一部分。无论如何,这就是我提出的:

library(tidyverse)
dat  %>%
  rowwise() %>%
  mutate(postfix = max(states$V1[str_detect(V1, states$V1)])) %>%
  mutate(prefix = str_replace(V1, str_c("_", postfix), "")) %>%
  melt(id.vars = c("postfix", "prefix"), measure.vars = "V2") %>%
  dcast(prefix ~ postfix) 

在第一个mutate中,识别最长匹配状态以形成postfix。在第二个mutate中,此postfix被删除以形成prefix