Question

我有一个像这样的数据框，但是有更多的蛋白质

Protein      z
  Irak4  -2.46
  Irak4  -0.13
    Itk  -0.49
    Itk   4.22
    Itk  -0.51
    Ras   1.53

为了进行进一步的操作，我需要按照Proteinname将数据分组为这样的列。

Irak4    Itk    Ras
-2.46  -0.49   1.53
-0.13   4.22     NA
   NA  -0.51     NA

我尝试了dplyr或reshape等其他软件包，但没有设法将数据转换为所需的格式。

有什么办法可以做到这一点？我认为某些蛋白质缺少的数据点是这里的主要问题。

我对R很陌生，所以如果我缺少一个明显的解决方案，我深表歉意。

Answer 1

这里是tidyverse

的一个选项

library(tidyverse)
DF %>% 
  group_by(Protein) %>% 
  mutate(idx = row_number()) %>% 
  spread(Protein, z) %>% 
  select(-idx)
# A tibble: 3 x 3
#   Irak4   Itk   Ras
#   <dbl> <dbl> <dbl>
#1  -2.46 -0.49  1.53
#2  -0.13  4.22 NA   
#3  NA    -0.51 NA

在spread数据之前，我们需要创建唯一的标识符。

在base R中，您可以先使用unstack，这将为您提供包含z列中的值的矢量命名列表。

使用lapply遍历该列表，并使用NA函数将向量与`length<-`附加在一起，以得到长度相等的向量列表。然后我们可以呼叫data.frame。

lst <- unstack(DF, z ~ Protein)
data.frame(lapply(lst, `length<-`, max(lengths(lst))))
#  Irak4   Itk  Ras
#1 -2.46 -0.49 1.53
#2 -0.13  4.22   NA
#3    NA -0.51   NA

数据

DF <- structure(list(Protein = c("Irak4", "Irak4", "Itk", "Itk", "Itk", 
"Ras"), z = c(-2.46, -0.13, -0.49, 4.22, -0.51, 1.53)), .Names = c("Protein", 
"z"), class = "data.frame", row.names = c(NA, -6L))

Answer 2

INSERT INTO Voyage(VilleDépart,Trajet,HeureDépart,DateDépart,Flexibilité,HeureArrivée,Bagage,Commentaire,LieuArrivée,VilleArrivée,Durée,DateArrivée,LieuDépart,IDChauffeur,Détour,Prix,`Distance(Km)`,PlacesDisponibles,PlacesProposées) VALUES (
    'Abong-Mbang','Abong-Mbang --> Ambam:','23:45','2018-09-28','+/- 30 minutes','05:59','Petit','Nine','Er','Ambam','06 h 14 min','2018-09-29',
    'Az',5,'+/- 15 minutes',3100,422,5,5
    )
> Affected rows: 1
> Time: 0.23s

在R基中，您可以执行以下操作：

library(data.table)

dcast(setDT(df),rowid(Protein)~Protein,value.var='z')

   Protein Irak4   Itk  Ras
1:       1 -2.46 -0.49 1.53
2:       2 -0.13  4.22   NA
3:       3    NA -0.51   NA

或使用重塑：

data.frame(sapply(a<-unstack(df,z~Protein),`length<-`,max(lengths(a))))
  Irak4   Itk  Ras
1 -2.46 -0.49 1.53
2 -0.13  4.22   NA
3    NA -0.51   NA

将具有相同ID的值分组到列中，而不必在R

2 个答案: