Question

我正在尝试创建一个python程序，它将从我创建的文本文件中计算每个基因座的最大等位基因数。这是我正在使用的文本文件的示例。

          Locus1           Locus2          Locus3           Locus4

sample1   102 222 245      111 166          234              111 234   

sample2   156 199          111 229 233 289  177 189          227 233 299 303

在这个例子中，我有两个样本，在四个基因座上有遗传数据（我的文件包含大约500个样本）。遗传数据是在每个基因座处发生的等位基因。每个等位基因由三个数字组成。例如，在sample1和locus1中，有三个等位基因被表示（102,222,245）。 Sample1 / Locus2有两个等位基因（111和166）; sample1 / Locus3有一个等位基因（234）;和sample1 / Locus4有两个等位基因（111和234）。

在下一个样本中，sample2 / Locus1有两个等位基因（156,199）; sample2 / Locus2有四个等位基因（111,229,233,289）; sample2 / Locus3有两个等位基因（177,189），而sample2 / Locus4有四个等位基因（227,233,299,303）。

我正在尝试创建一个python程序，它将找到在该样本中表达最多等位基因（最大数量）的基因座。 在样品1中，表达的大多数等位基因位于基因座1中，因为它具有3个等位基因，而基因座2和基因座4仅具有2个等位基因，而基因座3仅具有1个等位基因。因此，我的输出数应为3.在样本2中，表达的大多数等位基因位于Locus2和Locus4中。在这两个位点，它们有4个等位基因。所以我的输出数应该是4.理想情况下，我的最终输出文件应该是旁边有最大等位基因数的样本列表。例如，

sample1 3

sample2 4

等...

此外，每个基因座由7个标签分开，并且在每个基因座内，等位基因通过标签分开。

我为任何困惑道歉。我似乎无法弄清楚如何沿着一条线计算一组特定的数字（从文本文件的7个标签的倍数），并找出哪组数字具有最高的那些数字。我会很感激任何想法。

python程序，计算每个基因座的最大等位基因数

0 个答案: