Question

我有一个巨大的数据文件。在一列中，我有一个特定的大字母序列，看起来像“FAPYGTITSAKVMRTE”。有1000行这样的序列。对我来说重要的是选择那些在序列中至少有一个“K”的序列。其余的我可以忽略。如何从整个数据集中选择那些序列？如果需要，我可以在某处上传数据文件。

Answer 1

尝试使用grepl

> set.seed(2)
> df <- data.frame(sequences=replicate(10, paste0(sample(LETTERS[7:12], 5, TRUE), collapse=""))) # example

>df[grepl("K", df$sequence), , drop = FALSE] # thanks to Henrik's comment
   sequences
1      HKJHL
3      JHKHI
7      GGKLJ
8      JLHKG
10     KLIJK

按特定标记选择表中的行

1 个答案: