我是矢量化和生成器的新手。到目前为止,我已经创建了以下函数:
import numpy as np
def ismember(a,b):
for i in a:
if len(np.where(b==i)[0]) == 0:
lv_var = 0
else:
lv_var = np.int(np.where(b==i)[0])
yield lv_var
vect = np.vectorize(ismember)
A = np.array(xrange(700000))
B = np.array(xrange(700000))
lv_result = vect(A,B)
当我尝试将lv_result
作为列表或循环遍历生成的numpy数组时,我得到一个生成器对象列表。我需要以某种方式获得实际结果。如何从此功能打印实际结果?发电机上的.next()
似乎无法完成这项工作。
有人可以告诉我,我做错了什么或者我如何重新配置代码以达到最终目标?
好的,所以我现在理解了矢量化部分(感谢Viet Nguyen示例) 我还能够打印生成器对象的结果。代码已被修改。请参阅下文。
对于发电机部分:
我想要做的是模仿名为ismember的MATLAB函数(格式为:[Lia,Locb] = ismember(A,B)。我只是想获取Locb仅部分。
来自Matlab:Locb,包含A中每个值的B中最低的索引.A是B的成员。输出数组Locb在A不是B的成员的地方包含0
主要问题之一是我需要能够尽可能高效地执行此操作。为了测试,我有两个700k元素的数组。创建生成器并遍历生成器的值似乎没有更好的性能。
要打印生成器,我在下面创建了函数f()。
import numpy as np
def ismember(a,b):
for i in a:
index = np.where(b==i)[0]
if len(index) == 0:
yield 0
else:
yield index
def f(A, gen_obj):
my_array = np.arange(len(A))
for i in my_array:
my_array[i] = gen_obj.next()
return my_array
A = np.arange(700000)
B = np.arange(700000)
gen_obj = ismember(A,B)
f(A, gen_obj)
print 'done'
注意:如果我们尝试使用较小数组的上述代码: 让我们说。
A = np.array([3,4,4,3,6])
B = np.array([2,5,2,6,3])
结果将是一个数组:[4 0 0 4 3]
就像matlabs函数一样:目标是为B中的每个值获取B中的最低索引。输出数组Locb在A不是B的成员的任何地方都包含0。
Numpy的交叉功能并没有帮助我实现目标。此外,返回数组的大小需要与数组A的大小保持相同的大小。
到目前为止,这个过程是永远的(对于700k元素的数组)。不幸的是,我还没有找到最好的解决方案。关于如何重新配置代码以实现最终目标以及最佳性能的任何输入都将非常受欢迎。
答案 0 :(得分:2)
我相信你误解了numpy.vectorize
函数的输入。 “向量化”函数基于每个元素(see numpy.vectorize
reference)在数组上运行。您的函数ismember
似乎假设输入a
和b
是数组。相反,将该函数视为内置map()
时使用的函数。
> import numpy as np
> def mask(a, b):
> return 1 if a == b else 0
> a = np.array([1, 2, 3, 4])
> b = np.array([1, 3, 4, 5])
> maskv = np.vectorize(mask)
> maskv(a, b)
array([1, 0, 0, 0])
另外,如果我正确理解你的意图,NumPy会附带一个intersection function。