Question

我写了一个脚本来计算得分以及一系列遗传图谱的频率。

这里的遗传图谱由SNP的组合组成。每个SNP有两个等位基因。 3个SNP的输入文件如下：

    AA   CC   TT
    AT   CC   TT
    TT   CC   TT
    AA   CG   TT
    AT   CG   TT
    TT   CG   TT
    AA   GG   TT
    AT   GG   TT
    TT   GG   TT
    AA   CC   TA
    AT   CC   TA
    TT   CC   TA
    AA   CG   TA
    AT   CG   TA
    TT   CG   TA
    AA   GG   TA
    AT   GG   TA
    TT   GG   TA
    AA   CC   AA
    AT   CC   AA
    TT   CC   AA
    AA   CG   AA
    AT   CG   AA
    TT   CG   AA
    AA   GG   AA
    AT   GG   AA
    TT   GG   AA

然后我有以下代码，可以在上面的输入文件和一个包含权重和频率的表中进行输入，例如：

(SNP        RiskAll  RefAll         OR            log(OR)    RiskAllFreq) # example header, not in file
SNP1             A       T       1.25    0.223143551314     0.97273 
SNP2             C       G       1.07    0.0676586484738    0.3     
SNP3             T       A       1.08    0.0769610411361    0.1136

然后，根据遗传概况中每个SNP的每个风险等位基因的对数比值之和，以及假设Hardy Weinberg平衡的基础上，基于等位基因频率相乘的频率，计算得分。

import sys

snp={}
riskall={}
weights={}
freqs={}    # effect allele, *MAY NOT BE MINOR ALLELE

pop = int(int(sys.argv[4]) + 4) # for additional columns due to additional populations. the example table given only has one population (column 6)

# read in OR table
pos = 0
with open(sys.argv[1], 'r') as f:
    for line in f:
        snp[pos]=(line.split()[0])
        riskall[line.split()[0]]=line.split()[1]
        weights[line.split()[0]]=line.split()[4]
        freqs[line.split()[0]]=line.split()[pop]

        pos+=1



### compute scores for each combination
with open(sys.argv[2], 'r') as f:
    for line in f:
        score=0
        freq=1
        for j in range(len(line.split())):
            rsid=snp[j]
            riskallele=riskall[rsid]
            frequency=freqs[rsid]
            wei=weights[rsid]
            allele1=line.split()[j][0]
            allele2=line.split()[j][1]
            if allele2 != riskallele:      # homozygous for ref
                score+=0
                freq*=(1-float(frequency))*(1-float(frequency))
            elif allele1 != riskallele and allele2 == riskallele:  # heterozygous, be sure that A2 is risk allele!
                score+=float(wei)
                freq*=2*(1-float(frequency))*(float(frequency))
            elif allele1 == riskallele: # and allele2 == riskall[snp[j]]:      # homozygous for risk, be sure to limit risk to second allele!
                score+=2*float(wei)
                freq*=float(frequency)*float(frequency)

            if freq < float(sys.argv[3]):   # threshold to stop loop in interest of efficiency 
                break

        print(','.join(line.split()) + "\t" + str(score) + "\t" + str(freq))

到目前为止，我已经设置了一个变量，可以在其中指定一个阈值，以在频率极低（例如大约1e-10）时打破循环。我希望将其扩大到至少包括20个SNP。可以进行哪些改进以加快脚本的运行速度？

编辑：添加了表文件示例。

编辑2：我现在尝试使用频率阈值为1e-4运行脚本。到目前为止已经有六天了，它仍然在运行，而且速度太慢，因此我正在寻找更多建议！

编辑3：澄清输入文件，标题实际上不在输入文件中，它们只是一个指示。

编辑4：使用Pandas进行了尝试，但是速度很慢，并且不确定是否可以实现矢量化。 Dask在我的Unix服务器上安装了问题。现在，我已尽可能将所有数据结构更改为字典。我还能做什么？

提高循环数学脚本的效率

0 个答案: