Question

我有一个如下数据框：

  colA  colB
0    A    10
1    B    20
2    C     5
3    D     2
4    F    30
  ....

我想比较第1列的值以检测两个连续的减量。也就是说，我要报告索引值，其中列1连续两个递减。例如，我要报告'B'，因为B后面有两个连续的行，列1的值递减。我不确定如何在不编写循环的情况下进行处理。（如果无法避免循环，我想知道。）

谢谢

Answer 1

您可以为此使用loc：

   colA colB
1   B   20

输出将是：

desired=frame["colA"].loc[(frame["colB"]>=frame["colB"].shift(-1)) &
          (frame["colB"].shift(-1)>=frame["colB"].shift(-2) )]
print(desired.values)

如果您只想报告值B：

['B']

输出将是：

{{1}}

Answer 2

是的，您可以在不使用循环的情况下执行此操作。

df = pd.DataFrame({'colA':['A', 'B', 'C', 'D', 'F'], 'colB':[10, 20, 5, 2, 30]})
>>> df['colC'] = df['colB'].diff(-1)
>>> df
  colA  colB  colC
0    A    10 -10.0
1    B    20  15.0
2    C     5   3.0
3    D     2 -28.0
4    F    30   NaN

'colC'是连续行之间的差异。

>>> df['colD'] = np.where(df['colC'] > 0, 1, 0)
>>> df
  colA  colB  colC  colD
0    A    10 -10.0     0
1    B    20  15.0     1
2    C     5   3.0     1
3    D     2 -28.0     0
4    F    30  -1.0     0

在“ colD”中，我们标记差异大于0的标记。

>>> df1['s'] = df1['colD'].shift(-1)
>>> df1
  colA  colB  colC  colD    s 
0    A    10 -10.0     0  1.0 
1    B    20  15.0     1  1.0 
2    C     5   3.0     1  0.0 
3    D     2 -28.0     0  0.0 
4    F    30  -1.0     0  NaN

在“ s”列中，我们将“ colD”的值移位。

>>> df1['flag'] = np.where((df1['colD'] == 1) & (df1['colD'] == df1['s']), 1, 0)
>>> df1
  colA  colB  colC  colD    s  flag
0    A    10 -10.0     0  1.0     0
1    B    20  15.0     1  1.0     1
2    C     5   3.0     1  0.0     0
3    D     2 -28.0     0  0.0     0
4    F    30  -1.0     0  NaN     0

然后“ flag”为必填列。

Answer 3

这里需要一点逻辑

s=df.colB.diff().gt(0) # get the diff 
df.loc[df.groupby(s.cumsum()).colA.transform('count').ge(3)&s,'colA'] # then we using count to see which one is more than 3 items (include the line start to two items decreasing )
Out[45]: 
1    B
Name: colA, dtype: object

熊猫：如何比较列的值和下一个值

3 个答案: