我想基于数据帧中某一列的分组变量在数据帧中创建一个新列,然后检查数据帧中另一列的条件。
我尝试将np.where与pandas pd.groupby一起使用,以在数据帧中创建一个Status列,在该列中,我根据对每个Sensor_ID的分组,检查该列中的下一个值是否大于当前值。基于此,我尝试分配状态是否设置为reset或not_reset,但是我并未成功使用该代码。
import pandas as pd
df = pd.DataFrame(data = {'Sensor_ID':['A1', 'A1', 'A1', 'A2','A2', 'A2', 'A2', 'A3', 'A3', 'A3', 'A3', 'A3'], 'Reading':[81, 83.5, 87, 90, 81, 82, 85, 78, 79, 78, 80, 78]})
df
Sensor_ID Reading
0 A1 81.0
1 A1 83.5
2 A1 87.0
3 A2 90.0
4 A2 81.0
5 A2 82.0
6 A2 85.0
7 A3 78.0
8 A3 79.0
9 A3 78.0
10 A3 80.0
11 A3 78.0
我想在下面使用np.where创建以下条件,但是我想将Sensor_ID用作分组变量。
df['Status'] = np.where(df.Reading.shift(-1) > df.Reading, 'not_reset', 'reset')
我在groupby和transform中使用了np.where
df['Status'] = np.where(df.groupby('Sensor_ID')['Reading'].transform(df['Reading'].shift(-1) > df['Reading'], 'not_reset', 'reset'))
TypeError: 'Series' objects are mutable, thus they cannot be hashed
我也尝试通过groupby使用apply和transform,但是出现错误:
df['Status'] = df.groupby('Sensor_ID').apply(lambda row: 'not_reset' if row['Reading'].shift(-1) > row['Reading'] else 'reset')
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). --> As its comparing the whole series.
和
df['Status'] = df.groupby('Sensor_ID').transform(df['Reading'].shift(-1) > df['Reading'], 'not_reset', 'reset')
TypeError: 'Series' objects are mutable, thus they cannot be hashed
预期输出:
Sensor_ID Reading Status
0 A1 81.0 not_reset
1 A1 83.5 not_reset
2 A1 87.0 not_reset
3 A2 90.0 not_reset
4 A2 81.0 reset
5 A2 82.0 not_reset
6 A2 85.0 not_reset
7 A3 78.0 not_reset
8 A3 79.0 not_reset
9 A3 78.0 reset
10 A3 80.0 not_reset
11 A3 78.0 reset
答案 0 :(得分:1)
您需要在分组IOW之后应用条件 ,使用groupby
和np.where
的结果)。
我将使用groupby
和diff
,这与比较移位1的值相同。就这么简单
np.where(
df.groupby('Sensor_ID')['Reading'].diff().fillna(1) > 0, 'not reset', 'reset')
array(['not reset', 'not reset', 'not reset', 'not reset', 'reset',
'not reset', 'not reset', 'not reset', 'not reset', 'reset',
'not reset', 'reset'], dtype='<U9')
有关解决(现已删除)问题的答案的初始版本,另请参见here。
df['Status'] = np.where(
df.groupby('Sensor_ID')['Reading'].diff().fillna(1) > 0, 'not reset', 'reset')
df
Sensor_ID Reading Status
0 A1 81.0 not reset
1 A1 83.5 not reset
2 A1 87.0 not reset
3 A2 90.0 not reset
4 A2 81.0 reset
5 A2 82.0 not reset
6 A2 85.0 not reset
7 A3 78.0 not reset
8 A3 79.0 not reset
9 A3 78.0 reset
10 A3 80.0 not reset
11 A3 78.0 reset