Question

我很抱歉这个问题的措词不好，但这是我能做的最好的事情。我确切地知道我想要什么，但不知道如何要求它。

这是一个例子证明的逻辑：

取值为1或0的两个条件触发一个也取值为1或0的信号。条件A触发信号（如果A = 1则信号= 1，否则信号= 0）无论如何。条件B不触发信号，但如果条件B保持等于1，则信号保持触发在信号先前由条件A触发之后。只有在A和B都回到0之后，信号才会回到0。

1。输入：

2。期望的输出（signal_d）并确认for循环可以解决它（signal_l）：

第3。我尝试使用numpy.where（）：

4。可重复的代码段：

Advanced Join Clauses

这很简单，使用带有滞后值的for循环和嵌套if句子，但我无法使用像# Settings import numpy as np import pandas as pd import datetime # Data frame with input and desired output i column signal_d df = pd.DataFrame({'condition_A':list('00001100000110'), 'condition_B':list('01110011111000'), 'signal_d':list('00001111111110')}) colnames = list(df) df[colnames] = df[colnames].apply(pd.to_numeric) datelist = pd.date_range(pd.datetime.today().strftime('%Y-%m-%d'), periods=14).tolist() df['dates'] = datelist df = df.set_index(['dates']) # Solution using a for loop with nested ifs in column signal_l df['signal_l'] = df['condition_A'].copy(deep = True) i=0 for observations in df['signal_l']: if df.ix[i,'condition_A'] == 1: df.ix[i,'signal_l'] = 1 else: # Signal previously triggered by condition_A # AND kept "alive" by condition_B: if df.ix[i - 1,'signal_l'] & df.ix[i,'condition_B'] == 1: df.ix[i,'signal_l'] = 1 else: df.ix[i,'signal_l'] = 0 i = i + 1 # My attempt with np.where in column signal_v1 df['Signal_v1'] = df['condition_A'].copy() df['Signal_v1'] = np.where(df.condition_A == 1, 1, np.where( (df.shift(1).Signal_v1 == 1) & (df.condition_B == 1), 1, 0)) print(df)这样的向量化函数来解决这个问题。而且我知道对于更大的数据帧来说这会更快。

感谢您的任何建议！

Answer 1

我认为没有办法对这个操作进行矢量化，这比Python循环要快得多。（至少，如果你想坚持使用Python，pandas和numpy，那就没有了。）

但是，您可以通过简化代码来提高此操作的性能。您的实现使用if语句和大量DataFrame索引。这些是相对昂贵的操作。

以下是对脚本的修改，其中包含两个功能：add_signal_l(df)和add_lagged(df)。第一个是你的代码，只是包含在一个函数中。第二个使用更简单的函数来实现相同的结果 - 仍然是一个Python循环，但它使用numpy数组和按位运算符。

import numpy as np
import pandas as pd
import datetime

#-----------------------------------------------------------------------
# Create the test DataFrame

# Data frame with input and desired output i column signal_d
df = pd.DataFrame({'condition_A':list('00001100000110'),
                   'condition_B':list('01110011111000'),
                   'signal_d':list('00001111111110')})

colnames = list(df)
df[colnames] = df[colnames].apply(pd.to_numeric)
datelist = pd.date_range(pd.datetime.today().strftime('%Y-%m-%d'), periods=14).tolist()
df['dates'] = datelist
df = df.set_index(['dates']) 
#-----------------------------------------------------------------------

def add_signal_l(df):
    # Solution using a for loop with nested ifs in column signal_l
    df['signal_l'] = df['condition_A'].copy(deep = True)
    i=0
    for observations in df['signal_l']:
        if df.ix[i,'condition_A'] == 1:
            df.ix[i,'signal_l'] = 1
        else:
            # Signal previously triggered by condition_A
            # AND kept "alive" by condition_B:                
            if df.ix[i - 1,'signal_l'] & df.ix[i,'condition_B'] == 1:
                 df.ix[i,'signal_l'] = 1
            else:
                df.ix[i,'signal_l'] = 0          
        i = i + 1

def compute_lagged_signal(a, b):
    x = np.empty_like(a)
    x[0] = a[0]
    for i in range(1, len(a)):
        x[i] = a[i] | (x[i-1] & b[i])
    return x

def add_lagged(df):
    df['lagged'] = compute_lagged_signal(df['condition_A'].values, df['condition_B'].values)

这是在IPython会话中运行的两个函数的时间比较：

In [85]: df
Out[85]: 
            condition_A  condition_B  signal_d
dates                                         
2017-06-09            0            0         0
2017-06-10            0            1         0
2017-06-11            0            1         0
2017-06-12            0            1         0
2017-06-13            1            0         1
2017-06-14            1            0         1
2017-06-15            0            1         1
2017-06-16            0            1         1
2017-06-17            0            1         1
2017-06-18            0            1         1
2017-06-19            0            1         1
2017-06-20            1            0         1
2017-06-21            1            0         1
2017-06-22            0            0         0

In [86]: %timeit add_signal_l(df)
8.45 ms ± 177 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [87]: %timeit add_lagged(df)
137 µs ± 581 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

如您所见，add_lagged(df)要快得多。

如何对使用其自身输出的滞后值的函数进行矢量化？

1 个答案: