使用biopython(对于多个文件)在输出文件中使用fasta文件标题打印物种名称

时间:2018-05-23 09:39:41

标签: python biopython

我无法从我的fasta文件中打印物种名称

输入文件是:

>NP_842573.1 chromosomal replication initiator DnaA [Bacillus anthracis str. Ames]
MENISDLWNSALKELEKKVSKPSYETWLKSTTAHNLKKDVLTITAPNEFARDWLESHYSELISETLYDLTGAKLAIRFIIPQSQAEEEIDLPPAKPNAAQDDSNHLPQSMLNPKYTFDTFVIGSGNRFAHAASLAVAEAPAKAYNPLFIYGGVGLGKTHLMHAIGHYVIEHNPNAKVVYLSSEKFTNEFINSIRDNKAVDFRNKYRNVDVLLIDDIQFLAGKEQTQEEFFHTFNALHEESKQIVISSDRPPKEIPTLEDRLRSRFEWGLITDITPPDLETRIAILRKKAKAEGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLINKDINADLAAEALKDIIPNSKPKIISIYDIQKAVGDVYQVKLEDFKAKKRTKSVAFPRQIAMYLSRELTDSSLPKIGEEFGGRDHTTVIHAHEKISKLLKTDTQLQKQVEEINDILK

我的输出文件的一部分看起来像这样(GCF ... faa是文件名)

Y,2.798738459583378,GCF_000014005.1_ASM1400v1_protein.faa

我真的很想打印物种名称[Bacillus anthracis str。 Ames]以及文件名。

我需要编辑的行是:

file.write ('\nY,' + str(pY) +  ',' + str(FILE))

打印几个变量,然后输出文件名的字符串。

但我正在努力找到一种方法,使用biopython在fasta文件的标题中的方括号之间输出字符串。

1 个答案:

答案 0 :(得分:0)

正如Chris_Rands在评论中指出的那样,答案是:

 record.description.split('[', 1)[1].split(']', 1)[0]