使用cat file.fa | grep -c“TATA”> python脚本中的results.txt

时间:2016-06-08 13:33:39

标签: python unix

我有大约400个数据集,我将其命名为dataID_F.fas和dataID_R.fas。对于每个dataID,都有一个dataID_F.fas和dataID_R.fas。对于每个dataID,我想比较特定区域的出现,例如“-AG-GT-”,当出现在特定序列中时,它只出现一次,因为我已经修剪了我正在搜索的特定区域。我首先使用两个命令来计算序列数,然后使用下一个命令计算我要查找的唯一站点: cat DataID_F(或R).fas | grep -c“>” (总序列) cat DataID_F(或R).fas | grep -c“-AG-GT-”(总变体)。

考虑到我拥有的数据集的数量,这个过程非常繁琐,而我正在考虑生成一个python脚本,可以读取打开目录中的所有fasta文件(具有标准命名的文件DataID_F.fas / DataID_R.fas ),计算序列总数,总变量,然后计算每个文件的百分比((变体/总变量)* 100),并以csv或文本格式制表结果。这是我想做的事情,但我一路迷路,不知道如何将整个事情放在一起。

{{1}}

0 个答案:

没有答案