大家好我有一个包含5列的数据框:
ID(整数)| TIME(整数)|湿度|温度|压力
ID =房间
TIME = unixtimestamp秒
湿度/温度/压力=传感器值
我需要什么......
我想通过ID执行湿度/温度/压力的过滤器(signal.lfilter)......例如......
ID = 1 按TIME asc订购的湿度值执行lfilter 按TIME Asc订购的温度值执行lfilter 按TIME asc
命令的压力值执行lfilter ID = 2
按TIME asc订购的湿度值执行lfilter
按TIME Asc订购的温度值执行lfilter
按TIME asc
...
表示ID = n
按TIME asc订购的湿度值执行lfilter
按TIME Asc订购的温度值执行lfilter
按TIME asc
我怎么能这么快?今天我使用2 for循环:
for i in df.id.unique():
for column in ['humidity','temperature','pressure']:
df[df.id=i][column] = ... lfilter ...
但是它太慢了,有什么帮助吗?
答案 0 :(得分:1)
它不是超级干净,但请尝试以下方法。这是您使用signal.lfilter
功能后的操作吗?
编辑:哎呀,忘了时间要求。只需在下面的操作之前运行df.sort_values(['ID', 'TIME'], ascending=True)
即可。
import pandas as pd
from scipy import signal
import numpy as np
np.random.seed(1618)
df = pd.DataFrame({'ID': [1,1,1,2,2,2],
'humidity': np.random.random(6),
'temperature': np.random.random(6),
'pressure': np.random.random(6)})
# >>> df
# ID humidity pressure temperature
# 0 1 0.605160 0.194984 0.450019
# 1 1 0.301108 0.077726 0.691227
# 2 1 0.197976 0.144978 0.155231
# 3 2 0.733884 0.458959 0.785704
# 4 2 0.457377 0.647681 0.092045
# 5 2 0.021497 0.417326 0.551941
tmp = df.groupby('ID').apply(lambda x: signal.lfilter(x['humidity'], x['pressure'], x['temperature']))
# this produces a vector for each ID.
# we have to unstack the vectors and append them to the original df
df['filtered'] = tmp.apply(lambda x: pd.Series(x)).stack().reset_index()[0]
# >>> df
# ID humidity pressure temperature filtered
# 0 1 0.605160 0.194984 0.450019 1.396696
# 1 1 0.301108 0.077726 0.691227 2.283506
# 2 1 0.197976 0.144978 0.155231 0.057383
# 3 2 0.733884 0.458959 0.785704 1.256354
# 4 2 0.457377 0.647681 0.092045 -0.842783
# 5 2 0.021497 0.417326 0.551941 1.058038