Question

我想从人类分类法中提取出fasta文件的所有条目，然后将这些条目放入一个新的较小的fasta文件中。我正在尝试使用R，但不确定如何使用。

fasta文件中的两个条目如下：

>sp|Q4R572|1433B_MACFA 14-3-3 protein beta/alpha OS=Homo sapiens GN=YWHAB PE=2 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLIPNATQPESKVFY
LKMKGDYFRYLSEVASGDNKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

>sp|Q9CQV8|1433B_MOUSE 14-3-3 protein beta/alpha OS=Mus musculus GN=Ywhab PE=1 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLILNATQAESKVFY
LKMKGDYFRYLSEVASGENKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

Answer 1

如果要在R中执行此操作，则可以使用readAAstringset包中的函数readFASTA和BioStrings，还可以使用read.fasta中的seqinr读取文件到R。然后您可以按自己喜欢的方式修剪它并输出（这两个软件包都具有输出功能）。

您可以找到有关这些功能和软件包here和here的信息。

由于fasta最终是文本文件，因此您也可以使用here中所述的基本R函数来完成此操作，但不建议这样做。

从FASTA文件中，仅提取具有指定分类法的条目

1 个答案: