从FASTA文件中,仅提取具有指定分类法的条目

时间:2019-03-27 21:35:07

标签: r subset extract taxonomy fasta

我想从人类分类法中提取出fasta文件的所有条目,然后将这些条目放入一个新的较小的fasta文件中。我正在尝试使用R,但不确定如何使用。

fasta文件中的两个条目如下:

>sp|Q4R572|1433B_MACFA 14-3-3 protein beta/alpha OS=Homo sapiens GN=YWHAB PE=2 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLIPNATQPESKVFY
LKMKGDYFRYLSEVASGDNKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

>sp|Q9CQV8|1433B_MOUSE 14-3-3 protein beta/alpha OS=Mus musculus GN=Ywhab PE=1 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLILNATQAESKVFY
LKMKGDYFRYLSEVASGENKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

1 个答案:

答案 0 :(得分:2)

如果要在R中执行此操作,则可以使用readAAstringset包中的函数readFASTABioStrings,还可以使用read.fasta中的seqinr读取文件到R。然后您可以按自己喜欢的方式修剪它并输出(这两个软件包都具有输出功能)。

您可以找到有关这些功能和软件包herehere的信息。

由于fasta最终是文本文件,因此您也可以使用here中所述的基本R函数来完成此操作,但不建议这样做。