我正在尝试创建一个python程序,它将从我创建的文本文件中计算每个基因座的最大等位基因数。这是我正在使用的文本文件的示例。
Locus1 Locus2 Locus3 Locus4
sample1 102 222 245 111 166 234 111 234
sample2 156 199 111 229 233 289 177 189 227 233 299 303
在这个例子中,我有两个样本,在四个基因座上有遗传数据(我的文件包含大约500个样本)。遗传数据是在每个基因座处发生的等位基因。每个等位基因由三个数字组成。例如,在sample1和locus1中,有三个等位基因被表示(102,222,245)。 Sample1 / Locus2有两个等位基因(111和166); sample1 / Locus3有一个等位基因(234);和sample1 / Locus4有两个等位基因(111和234)。
在下一个样本中,sample2 / Locus1有两个等位基因(156,199); sample2 / Locus2有四个等位基因(111,229,233,289); sample2 / Locus3有两个等位基因(177,189),而sample2 / Locus4有四个等位基因(227,233,299,303)。
我正在尝试创建一个python程序,它将找到在该样本中表达最多等位基因(最大数量)的基因座。 在样品1中,表达的大多数等位基因位于基因座1中,因为它具有3个等位基因,而基因座2和基因座4仅具有2个等位基因,而基因座3仅具有1个等位基因。因此,我的输出数应为3.在样本2中,表达的大多数等位基因位于Locus2和Locus4中。在这两个位点,它们有4个等位基因。所以我的输出数应该是4.理想情况下,我的最终输出文件应该是旁边有最大等位基因数的样本列表。例如,
sample1 3
sample2 4
等...
此外,每个基因座由7个标签分开,并且在每个基因座内,等位基因通过标签分开。
我为任何困惑道歉。我似乎无法弄清楚如何沿着一条线计算一组特定的数字(从文本文件的7个标签的倍数),并找出哪组数字具有最高的那些数字。我会很感激任何想法。