应用错误收集

我有大约400个数据集，我将其命名为dataID_F.fas和dataID_R.fas。对于每个dataID，都有一个dataID_F.fas和dataID_R.fas。对于每个dataID，我想比较特定区域的出现，例如“-AG-GT-”，当出现在特定序列中时，它只出现一次，因为我已经修剪了我正在搜索的特定区域。我首先使用两个命令来计算序列数，然后使用下一个命令计算我要查找的唯一站点： cat DataID_F（或R）.fas | grep -c“＆gt;” （总序列） cat DataID_F（或R）.fas | grep -c“-AG-GT-”（总变体）。

考虑到我拥有的数据集的数量，这个过程非常繁琐，而我正在考虑生成一个python脚本，可以读取打开目录中的所有fasta文件（具有标准命名的文件DataID_F.fas / DataID_R.fas ），计算序列总数，总变量，然后计算每个文件的百分比（（变体/总变量）* 100），并以csv或文本格式制表结果。这是我想做的事情，但我一路迷路，不知道如何将整个事情放在一起。

{{1}}

使用cat file.fa | grep -c“TATA”＆gt; python脚本中的results.txt

0 个答案: