numpy张量实现比循环慢

时间:2019-03-21 14:06:57

标签: python-3.x numpy numpy-ndarray numpy-broadcasting

我有两个函数可以计算相同的指标。一个最终使用列表推导来循环计算,另一个仅使用numpy张量运算。这些函数采用(N,3)数组,其中N是3D空间中的点数。当N <〜3000时,张量函数更快,当N>〜3000时,列表理解更快。两者似乎都具有N的线性时间复杂度,即两条时间N线在N =〜3000处交叉。

def approximate_area_loop(section, num_area_divisions):        
    n_a_d = num_area_divisions
    interp_vectors = get_section_interp_(section)

    a1 = section[:-1]
    b1 = section[1:]
    a2 = interp_vectors[:-1]
    b2 = interp_vectors[1:]

    c = lambda u: (1 - u) * a1 + u * a2
    d = lambda u: (1 - u) * b1 + u * b2
    x = lambda u, v: (1 - v) * c(u) + v * d(u)

    area = np.sum([np.linalg.norm(np.cross((x((i + 1)/n_a_d, j/n_a_d) - x(i/n_a_d, j/n_a_d)),\
                                           (x(i/n_a_d, (j +1)/n_a_d) - x(i/n_a_d, j/n_a_d))), axis = 1)\
                   for i in range(n_a_d) for j in range(n_a_d)])

    Dt = section[-1, 0] - section[0, 0]
    return area, Dt

def approximate_area_tensor(section, num_area_divisions):
    divisors = np.linspace(0, 1, num_area_divisions + 1)
    interp_vectors = get_section_interp_(section)
    a1 = section[:-1]
    b1 = section[1:]
    a2 = interp_vectors[:-1]
    b2 = interp_vectors[1:]
    c = np.multiply.outer(a1, (1 - divisors)) + np.multiply.outer(a2, divisors) # c_areas_vecs_divs
    d = np.multiply.outer(b1, (1 - divisors)) + np.multiply.outer(b2, divisors) # d_areas_vecs_divs
    x = np.multiply.outer(c, (1 - divisors)) + np.multiply.outer(d, divisors) # x_areas_vecs_Divs_divs
    u = x[:, :, 1:, :-1] - x[:, :, :-1, :-1] # u_areas_vecs_Divs_divs
    v = x[:, :, :-1, 1:] - x[:, :, :-1, :-1] # v_areas_vecs_Divs_divs
    sub_area_norm_vecs = np.cross(u, v, axis = 1) # areas_crosses_Divs_divs
    sub_areas = np.linalg.norm(sub_area_norm_vecs, axis = 1) # areas_Divs_divs (values are now sub areas)
    area = np.sum(sub_areas)
    Dt = section[-1, 0] - section[0, 0]
    return area, Dt

为什么列表理解版本在大N时工作更快?张量版本肯定会更快吗?我想知道这是否与计算大小有关,是否意味着它太大而无法在缓存中完成?请问我是否没有提供足够的信息,我真的很想深入了解这个问题。

1 个答案:

答案 0 :(得分:0)

如@hpauljs注释所建议的,完全矢量化功能的瓶颈确实在np.linalg.norm中。 范数仅用于获取轴1中包含的所有向量的大小。一种更简单,更快捷的方法是:

sub_areas = np.sqrt((sub_area_norm_vecs*sub_area_norm_vecs).sum(axis = 1))

这提供了完全相同的结果,并且使代码的速度比循环实现快了25倍(即使循环也不使用linalg.norm)。