熊猫最接近的未来价值不等于当前行

时间:2017-09-28 22:47:02

标签: python pandas vectorization

我有一个Pandas DataFrame,其中包含一列price和一个DateTimeIndex。我希望创建一个新列,当price在下次更改时增加时为0,如果减少则为0。多个连续行可能具有相同的price值。

示例:

import pandas as pd
df = pd.DataFrame({"price" : [10, 10, 20, 10, 30, 5]}, index=pd.date_range(start="2017-01-01", end="2017-01-06"))

输出应为:

2017-01-01     1
2017-01-02     1
2017-01-03     0
2017-01-04     1
2017-01-05     0
2017-01-06     NaN

实际上这个DF有大约20mm的行,所以我真的在寻找一种矢量化的方法。

3 个答案:

答案 0 :(得分:1)

以下是一种方法:

  1. 计算价格差异并向上移动一个;

  2. 使用numpy.where将1分配给价格上涨的位置,将0分配给价格下降的位置;

  3. 回填指标列,因此非变化值与下一个可用观察值相同;

  4. 在代码中:

    import numpy as np
    price_diff = df.price.diff().shift(-1)
    df['indicator'] = np.where(price_diff.gt(0), 1, np.where(price_diff.lt(0), 0, np.nan))
    df['indicator'] = df.indicator.bfill()
    
    df
    #            price  indicator
    #2017-01-01     10      1.0
    #2017-01-02     10      1.0
    #2017-01-03     20      0.0
    #2017-01-04     10      1.0
    #2017-01-05     30      0.0
    #2017-01-06      5      NaN
    

答案 1 :(得分:1)

df['New']=(df-df.shift(-1))[:-1].le(0).astype(int)
df
Out[879]: 
            price  New
2017-01-01     10  1.0
2017-01-02     10  1.0
2017-01-03     20  0.0
2017-01-04     10  1.0
2017-01-05     30  0.0
2017-01-06      5  NaN

答案 2 :(得分:0)

使用shift:

sh = df['price'].shift(-1)
out = sh[~sh.isnull()] = df['price']<=sh

sh = df['price'].shift(-1)
out = np.where(sh.isnull(), np.nan, df['price']<=sh)