跨行匹配多个字母

时间:2019-03-26 20:06:28

标签: r

我想以某种方式分析我的数据集,但是不幸的是,尽管在R上花费了很多时间,但我仍无法弄清楚如何完成任务。以下是我想做的事情:

数据集名称:蛋白质组(此数据集具有数千行和14列:在下面,我仅在第5列中显示四个条目)

Row 1, column 5: GHFCLKPGCNFHAESTRGYR
Row 2, column 5: FCLKPGCNFHAESTRGYR
Row 3, column 5: GHFCLKPGCNFHAESTR
Row 4: column 5: GCNFHAESTR

第2行中,第1行的前两个字母丢失; 在第3行中,缺少第1行的最后三个字母; 在第4行中,缺少第1行的前七个字母和最后三个字母。

第2、3和4行反映了我一直用于生成数据的科学方法的工件,因此我想删除这些条目。

理想情况下,我希望R返回顶部条目,但是如果R只能将这样的行折叠成单行,那就可以了。我的想法是,如果这些行中的五个连续字母彼此匹配,则将多行折叠为一个。在上面的示例中,GCNFHAESTR在所有四行中均匹配,因此我希望R仅返回我一行,最好返回第一行。

0 个答案:

没有答案