我想获得数据帧中行的平均值,其中我只使用大于或等于零的值。
例如: 如果我的数据框看起来像:
class Connection {
constructor(id, socket) {
this.id = id;
this.socket = socket;
}
}
let connections = [];
socket.on('connection', (socket) => {
// Get an id for the user/connection
// ...
// let id = getID(socket);
connections.push(new Connection(id, socket));
});
let sendToID = (id, message) => {
for(let i = 0, len = connections.length; i < len; i++) {
if(connections[i].id === id) {
connections[i].socket.emit('message', message);
break;
}
}
};
目前,如果我得到我写的行的平均值:
df = pd.DataFrame([[3,4,5], [4,5,6],[4,-10,6]])
3 4 5
4 5 6
4 -10 6
并获得:
df['mean'] = df.mean(axis = 1)
我想获得一个只使用大于零的值来计算平均值的数据帧。我想要一个看起来像的数据框:
3 4 5 4
4 5 6 5
4 -10 6 0
在上面的例子中,-10被排除在平均值之外。是否有一个排除-10的命令?
答案 0 :(得分:6)
您可以在计算平均值之前使用df[df > 0]
查询数据框; df[df > 0]
返回一个数据框,其中小于或等于零的单元格将替换为NaN
,并在计算mean
时被忽略:
df[df > 0].mean(1)
#0 4.0
#1 5.0
#2 5.0
#dtype: float64
答案 1 :(得分:2)
不像@Psidom那么简洁。但是如果你想使用numpy
并加快速度。
v0 = df.values
v1 = np.where(v0 > 0, v0, np.nan)
v2 = np.nanmean(v1, axis=1)
df.assign(Mean=v2)
0 1 2 Mean
0 3 4 5 4.0
1 4 5 6 5.0
2 4 -10 6 5.0
<强>时序强>
小数据
%timeit df.assign(Mean=df[df > 0].mean(1))
1000 loops, best of 3: 1.71 ms per loop
%%timeit
v0 = df.values
v1 = np.where(v0 > 0, v0, np.nan)
v2 = np.nanmean(v1, axis=1)
df.assign(Mean=v2)
1000 loops, best of 3: 407 µs per loop