Question

我使用的数据看起来如何（它是一个SNP数据）：

AA CC CA GG  
GA CA CC GG  
GG CCCC CAA GG  
CA GG CC GC

在案例2之后我想要它如何（第3行由于多个字符列2而被删除，所有列被分成2个）

A A C C C A G G  
G A C A C C G G  
C A G G C C G C

案例1 我现在用的是什么

mydata <- mydata[which(!nchar(as.character(mydata[,5]))>2),]
mydata <- mydata[which(!nchar(as.character(mydata[,6]))>2),]
mydata <- mydata[which(!nchar(as.character(mydata[,7]))>2),]

我希望它是

mydata <- mydata[which(!nchar(as.character(mydata[,5:7]))>2),]

问题是该函数正在计算所有列5：7并删除每一行。我想要一样，但是为每一列做这件事，而不是一起做案例2 我的代码这使用库

library(dplyr)
library(splitstackshape)

每个列的

运行会拆分第6列的单元格

data2$V6 = as.character(data2$V6)
data2 <- cSplit(data.frame(data2 %>% rowwise() %>%
mutate(V6 = V6, V6n = paste(unlist(strsplit(V6, "")),
collapse = ','))), "V6n", ",")
data2$V5 <- NULL

我对所有列都这样做我想为所有列做这个问题潜在解决方案不同类型的循环，但我无法使其工作。任何帮助将不胜感激

Answer 1

这是一个完全矢量化的解决方案，以达到您想要的输出

## Convert all the rows into a single vectors
tmp <- do.call(paste0, mydata)

## Remove too long rows, split and rbind
do.call(rbind, strsplit(tmp[nchar(tmp) == 2 * ncol(mydata)], "", fixed = TRUE))
#     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
# [1,] "A"  "A"  "C"  "C"  "C"  "A"  "G"  "G" 
# [2,] "G"  "A"  "C"  "A"  "C"  "C"  "G"  "G" 
# [3,] "C"  "A"  "G"  "G"  "C"  "C"  "G"  "C"

这会产生matrix但如果需要可以轻松转换为data.frame

如何将特定函数应用于R的列范围（但仅将其应用于每个列）？

1 个答案: