获取数据帧中行的平均值大于或等于零

时间:2017-05-30 19:19:43

标签: python pandas

我想获得数据帧中行的平均值,其中我只使用大于或等于零的值。

例如: 如果我的数据框看起来像:

class Connection {
        constructor(id, socket) {
                this.id = id;
                this.socket = socket;
        }
}

let connections = [];

socket.on('connection', (socket) => {
        // Get an id for the user/connection
        // ...
        // let id = getID(socket);

        connections.push(new Connection(id, socket));
});

let sendToID = (id, message) => {
        for(let i = 0, len = connections.length; i < len; i++) {
                if(connections[i].id === id) {
                        connections[i].socket.emit('message', message);
                        break;
                }
        }
};

目前,如果我得到我写的行的平均值:

df = pd.DataFrame([[3,4,5], [4,5,6],[4,-10,6]])
    3   4   5
    4   5   6
    4   -10 6

并获得:

df['mean'] = df.mean(axis = 1)

我想获得一个只使用大于零的值来计算平均值的数据帧。我想要一个看起来像的数据框:

3   4   5   4
4   5   6   5
4   -10 6   0

在上面的例子中,-10被排除在平均值之外。是否有一个排除-10的命令?

2 个答案:

答案 0 :(得分:6)

您可以在计算平均值之前使用df[df > 0]查询数据框; df[df > 0]返回一个数据框,其中小于或等于零的单元格将替换为NaN,并在计算mean时被忽略:

df[df > 0].mean(1)

#0    4.0
#1    5.0
#2    5.0
#dtype: float64

答案 1 :(得分:2)

不像@Psidom那么简洁。但是如果你想使用numpy并加快速度。

v0 = df.values
v1 = np.where(v0 > 0, v0, np.nan)
v2 = np.nanmean(v1, axis=1)
df.assign(Mean=v2)

   0   1  2  Mean
0  3   4  5   4.0
1  4   5  6   5.0
2  4 -10  6   5.0

<强>时序
小数据

%timeit df.assign(Mean=df[df > 0].mean(1))
1000 loops, best of 3: 1.71 ms per loop

%%timeit
v0 = df.values
v1 = np.where(v0 > 0, v0, np.nan)
v2 = np.nanmean(v1, axis=1)
df.assign(Mean=v2)
1000 loops, best of 3: 407 µs per loop