Question

我想在符合特定条件的每一行之后找到第一个值。因此，例如，我想在当前行增加5％之后找到第一个速率/值（不一定是之后的第一个行）。添加的列将是最后一个'first5percentIncrease'，并且将是第一行（在当前行之后）增加5％的索引（和/或值）。注意每个都不能低于当前行的索引。

          amount    date    rate    total   type first5percentIncreaseValue first5percentIncreaseIndex
9248    0.05745868  2018-01-22 06:11:36 10  0.00099984  buy 10.5 9341
9249    1.14869147  2018-01-22 06:08:38 20  0.01998989  buy 21 9421
9250    0.16498080  2018-01-22 06:02:59 15  0.00286241  sell 15.75 9266
9251    0.02881844  2018-01-22 06:01:54 2   0.00049999  sell 2.1 10911

我尝试使用loc将（）应用于每一行。仅约9k行输出至少需要10秒。这样做（我获得了比给定行高5％的所有值的列表）但是有更有效的方法吗？此外，我只想获得第一个值，但是当我接受这个时，我认为它是从第一行开始的。有没有办法从当前行开始.locs搜索，那么我可以拿第一个值？

coin_trade_history_df['rate'].apply(
    lambda y: coin_trade_history_df['rate'].loc[coin_trade_history_df['rate'].apply(
        lambda x: y  >= x + (x*.005))])

0    [0.01387146, 0.01387146, 0.01387148, 0.0138714...
1    [0.01387146, 0.01387146, 0.01387148, 0.0138714...
2    [0.01387146, 0.01387146, 0.01387148, 0.0138714...
3    [0.01387146, 0.01387146, 0.01387148, 0.0138714...
4    [0.01387146, 0.01387146, 0.01387148, 0.0138714...
Name: rate, dtype: object

进一步澄清Peter Leimbigler说它比我好：

哦，我想我现在明白了！ “对于每一行，向下扫描并获得您遇到的第一行，显示增加至少5％，”对吗？我会编辑我的答案:) - Peter Leimbigler

Answer 1

以下是使用下一个可用行的索引标记每一行的具体示例的方法，该行显示至少增加5％。

# Example data
df = pd.DataFrame({'rate': [100, 105, 99, 110, 130, 120, 98]})

# Series.shift(n) moves elements n places forward = down. We use
# it here in the denominator in order to compare each change with 
# the initial value, rather than the final value.

mask = df.rate.diff()/df.rate.shift() >= 0.05

df.loc[mask, 'next_big_change_idx'] = df[mask].index
df.next_big_change_idx = df.next_big_change_idx.bfill().shift(-1)

# output
df
   rate  next_big_change_idx
0   100                  1.0
1   105                  3.0
2    99                  3.0
3   110                  4.0
4   130                  NaN
5   120                  NaN
6    98                  NaN

Answer 2

彼得的回答要快得多，但只关注下一行。我想让它在每一行都执行此操作。下面是我最终得到的 - 不是非常快，但它遍历每一行并返回第一个值（或我的情况下的最后一个值，因为我的时间序列正在下降）满足我的标准（增加5％）。

def test_rows(x):
    return trade_history_df['rate'].loc[
        trade_history_df['rate'] >= x['rate'] + (x['rate'] * .05)].loc[
        trade_history_df['date'] > x['date']].last_valid_index()

test1 = trade_history_df[['rate','date']].apply(test_rows,axis = 1)

Pandas Apply和Loc - 效率和索引

2 个答案: