如何在使用numpy数组维护内存的同时提高速度?

时间:2019-07-02 08:57:44

标签: python arrays numpy

对于二维数组中的每个条目,给定样本均值(E(X))和样本第二原始矩(E(X ^ 2)),我需要编写代码以进行一样本t检验。

我有两种方法,但这两种方法都不起作用。

  1. 使用numpy vetorized操作-某些大小的数组出现内存不足错误。
def calc_normal_pvals(vt_sum_counter, vt_ssum_counter):
    global nsubs
    vt_sum_counter = vt_sum_counter/nsubs
    vt_ssum_counter = vt_ssum_counter/nsubs
    sample_var = nsubs * (vt_ssum_counter - np.square(vt_sum_counter))/(nsubs - 1)
    t_array = np.divide(vt_sum_counter, (np.sqrt(sample_var/nsubs)))
    pvals = t.sf(t_array, nsubs-1)
    pvals[np.isnan(pvals)] = 0
    return pvals
  1. 常规for循环方法-比较需要花费很多时间
def calc_normal_pvals(vt_sum_counter, vt_ssum_counter, tail=1):
    global nsubs
    V, T = vt_sum_counter.shape
    pvals = np.zeros((V, T))
    for i in range(V):
        for j in range(T):
            sigma = ((vt_ssum_counter[i, j]/nsubs -(vt_sum_counter[i,j]/nsubs)**2)/(nsubs - 1))**0.5
            if (sigma != 0):
                pvals[i, j] = t.sf(vt_sum_counter[i, j]/(nsubs*sigma), nsubs-1)
    return pvals

输入数组很大-通常大小约为900000 X400。

0 个答案:

没有答案