广播自定义功能

时间:2019-04-12 08:03:05

标签: python numpy broadcast

我想构建一个广播支持的自定义功能。

特别是,我有两个数组,一个是日期,另一个是时间,我想像datetime.datetime.combine中那样合并两个数组。

我想要这样的东西(那是我的值,但是问题更普遍):

x = array([datetime.date(2019, 1, 21), datetime.date(2019, 1, 21),
           datetime.date(2019, 1, 21)])
y = array([datetime.time(0, 0), datetime.time(0, 15), datetime.time(0, 30)]

我想做这样的事情:

datetime.combine(out[:,0], out[:,1])

要获得与以下结果相同的结果:

np.asarray([datetime.combine(i,j) for i,j in zip(x,y)])

更普遍的是:

假设我有一个函数f(a,b),并且我有两个numpy数组x,y。有没有办法应用广播规则并获得f(x,y)

2 个答案:

答案 0 :(得分:0)

如果您查找的不是numpy.vectorize,则可能要签出numpy ufuncs:

https://docs.scipy.org/doc/numpy-1.16.1/reference/ufuncs.html

,您可以尝试创建自己的自定义ufunc https://docs.scipy.org/doc/numpy/user/c-info.ufunc-tutorial.html

答案 1 :(得分:0)

如果您想深入研究ufuncs代码,可以使用自定义c。但是您的说明性案例适用于datetime对象。 np.frompyfunc对此非常有用。使用对象dtype数组,numpy必须在(接近)Python级别进行迭代,并在每个对象上运行Python代码。如果在对象数组上调用ufunc,它将把任务委托给每个对象的对应方法(如果失败,则该方法不存在)。

让我们构造您的日期数组:

In [20]: from datetime import datetime   

In [35]: alist = [datetime(2019,1,21,0,0), datetime(2019,1,21,0,10),datetime(2020,1,21,0,0)]                                                           
In [36]: x = np.array([a.date() for a in alist])                                
In [37]: y = np.array([a.time() for a in alist])                                
In [38]: x                                                                      
Out[38]: 
array([datetime.date(2019, 1, 21), datetime.date(2019, 1, 21),
       datetime.date(2020, 1, 21)], dtype=object)
In [39]: y                                                                      
Out[39]: 
array([datetime.time(0, 0), datetime.time(0, 10), datetime.time(0, 0)],
      dtype=object)

并结合列表理解进行

In [41]: np.array([datetime.combine(i,j) for i, j in zip(x,y)])                 
Out[41]: 
array([datetime.datetime(2019, 1, 21, 0, 0),
       datetime.datetime(2019, 1, 21, 0, 10),
       datetime.datetime(2020, 1, 21, 0, 0)], dtype=object)

并带有frompyfunc

In [43]: np.frompyfunc(datetime.combine, 2,1)(x,y)                              
Out[43]: 
array([datetime.datetime(2019, 1, 21, 0, 0),
       datetime.datetime(2019, 1, 21, 0, 10),
       datetime.datetime(2020, 1, 21, 0, 0)], dtype=object)

有了frompyfunc,我们可以应用广播

In [44]: np.frompyfunc(datetime.combine, 2,1)(x,y[:,None])                      
Out[44]: 
array([[datetime.datetime(2019, 1, 21, 0, 0),
        datetime.datetime(2019, 1, 21, 0, 0),
        datetime.datetime(2020, 1, 21, 0, 0)],
       [datetime.datetime(2019, 1, 21, 0, 10),
        datetime.datetime(2019, 1, 21, 0, 10),
        datetime.datetime(2020, 1, 21, 0, 10)],
       [datetime.datetime(2019, 1, 21, 0, 0),
        datetime.datetime(2019, 1, 21, 0, 0),
        datetime.datetime(2020, 1, 21, 0, 0)]], dtype=object)

x可以用frompyfunc来构造:

In [46]: np.frompyfunc(lambda a: a.date(),1,1)(alist)                           
Out[46]: 
array([datetime.date(2019, 1, 21), datetime.date(2019, 1, 21),
       datetime.date(2020, 1, 21)], dtype=object)

组合的frompyfunc版本要快一点

In [47]: timeit np.frompyfunc(datetime.combine, 2,1)(x,y)                       
5.39 µs ± 181 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
In [48]: timeit np.array([datetime.combine(i,j) for i, j in zip(x,y)])          
11.8 µs ± 66.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

虽然[48]的大部分时间都来自数组接口:

In [51]: timeit [datetime.combine(i,j) for i, j in zip(x,y)]                    
3.91 µs ± 41.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
列表版本combinex中的

y甚至更快。

In [52]: %%timeit xy=zip(x.tolist(),y.tolist()) 
    ...: [datetime.combine(i,j) for i,j in xy] 
190 ns ± 0.579 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)