我正在尝试合并一些数据,我有以下两个2d numpy数组( a 和 b )
a = [[ 10 9.689474368e-04][ 20 6.88780375e-04]
[ 30 4.296339997e-04][ 40 -1.06232578e-03]
[ 50 -1.219884414e-03][ 60 -1.27936723e-03]]
b = [[ 30 6.687897368e-04][ 40 2.887890375e-04]
[ 50 3.293467897e-04][ 60 -8.067893578e-03]
[ 70 -7.213988414e-03][ 80 -8.278967323e-03]]
我想获得2个新的2d numpy数组( c 和 d ),其中第一个col a 和 b 匹配如下;
c = [[ 30 4.296339997e-04][ 40 -1.06232578e-03]
[ 50 -1.219884414e-03][ 60 -1.27936723e-03]]
d = [[ 30 6.687897368e-04][ 40 2.887890375e-04]
[ 50 3.293467897e-04][ 60 -8.067893578e-03]]
有人知道这样做的优化方法吗?
我尝试过简单的循环遍历每个项目,但是它不够快,我知道它可以用更优雅的方法解决。
我正在玩以下解决方案。它更快但不确定它是否是正确的方法。
aHash = map(tuple, a)
bHash = map(tuple, b)
aKey = {x[:1] for x in aHash}
bKey = {x[:1] for x in bHash}
c = np.array([x for x in bHash if x[:1] in aKey])
d = np.array([x for x in aHash if x[:1] in bKey])
由于
答案 0 :(得分:1)
这是一个我希望非常快的解决方案,特别是在预分类数据上。
import numpy as np
a = np.array([[ 20 ,6.88780375e-04],
[ 30 , 4.296339997e-04],[ 40 , -1.06232578e-03],
[ 50 ,-1.219884414e-03],[ 60 , -1.27936723e-03],[ 10 ,9.689474368e-04],])
b = np.array([[ 30 , 6.687897368e-04],[ 40 , 2.887890375e-04],
[ 50 , 3.293467897e-04],[ 60 , -8.067893578e-03],
[ 70 , -7.213988414e-03],[ 80 , -8.278967323e-03],])
a.sort(axis=0)
b.sort(axis=0)
def merge(a, b):
c = []
d = []
ai = 0
bi = 0
while(ai < len(a) and bi < len(b)):
av = a[ai]
bv = b[bi]
if av[0] == bv[0]:
c.append(av)
d.append(bv)
ai += 1
continue
if av[0] < bv[0]:
ai += 1
continue
else:
bi += 1
continue
return np.array(c), np.array(d)
print merge(a,b)
这是与当前唯一的其他方法进行比较。这使用原始数组稍微未排序(我想对排序方法应用一些惩罚)
Full tests done 100,000 times
while_loop_method = 3.19426544412 sec
hash_map_method = 3.89232874699 sec
这是一个1000倍大的混洗阵列的较小比例。
Full tests done 1,000 times
while_loop_method = 24.1850584226
hash_map_method = 25.9077035996
我的方法似乎可以很好地扩展,但在未排序的大型数组上效率不高。我希望我在列表中附加成为罪魁祸首。