我有一个巨大的数据文件。在一列中,我有一个特定的大字母序列,看起来像“FAPYGTITSAKVMRTE”。有1000行这样的序列。对我来说重要的是选择那些在序列中至少有一个“K”的序列。其余的我可以忽略。如何从整个数据集中选择那些序列?如果需要,我可以在某处上传数据文件。
答案 0 :(得分:3)
尝试使用grepl
> set.seed(2)
> df <- data.frame(sequences=replicate(10, paste0(sample(LETTERS[7:12], 5, TRUE), collapse=""))) # example
>df[grepl("K", df$sequence), , drop = FALSE] # thanks to Henrik's comment
sequences
1 HKJHL
3 JHKHI
7 GGKLJ
8 JLHKG
10 KLIJK