R:大数据:确定字符串长度

时间:2016-02-01 19:14:29

标签: r ff

我的数据如下所示,有数百万行。此文本可以复制到文本文件中,并在下面的示例中读入。

@HISEQ:104:C7Y3WACXX:4:1101:1307:1946 1:N:0:CGATGT
NTCCGGTAGTGTAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCACC
+                                                 
#0<FFFBBFBFFFFFIFIFIIIIIIIFIIIIIIIIIIIIIIIIFIIFIII
@HISEQ:104:C7Y3WACXX:4:1101:1356:1968 1:N:0:CGATGT
CGAGAGCTTTGAAGGCCGAAGTGGAAGATCGGAAGAGCACACGTCTGAAC
+                                                 
BBBFFFFFFFFFFFFFFFIIIBFFIIIIIFIIIIIIIIIIIIIFFFFFFF

我试着阅读上面的文字并确定以N,C,G或T开头的字符串的长度。 我通常会做这样的事情:

f <- scan(filepath,nmax=8,what="character",sep="\n")
f1 <- f[grep("^[NAGCT]+",f)]
nchar(f1)

我如何使用ff包进行同样的操作?

library(ff)
f <- read.table.ffdf(file=filepath,header=F,nrow=8,sep="\n")

我尝试了各种方法,但没有一种方法可行。

0 个答案:

没有答案