一种计算每列或一行非零元素平均值的有效方法

时间:2014-01-11 01:31:09

标签: python arrays numpy

我有一个numpy数组用于电影用户给出的评分。评级介于1和5之间,而0表示用户不对电影评分。我想计算每部电影的平均评分,以及每个用户的平均评分。换句话说,我将计算每列或一行非零元素的平均值。

是否有一个高效的numpy数组函数来处理这种情况?我知道手动按列或行迭代评级可以解决问题。

提前致谢!

3 个答案:

答案 0 :(得分:8)

由于要丢弃的值为0,您可以手动计算平均值,方法是沿轴进行求和,然后除以非零元素的数量(沿同一轴):

a = np.array([[8.,9,7,0], [0,0,5,6]])
a.sum(1)/(a != 0).sum(1)

结果:

array([ 8. ,  5.5])

正如您所看到的,零不被视为平均值。

答案 1 :(得分:5)

将所有np.nanmean值转换为0后,您可以使用np.nan。请注意,np.nanmean仅适用于numpy 1.8

import numpy as np

ratings = np.array([[1,4,5,0],
                    [2,0,3,0],
                    [4,0,0,0]], dtype=np.float)


def get_means(ratings):
    ratings[np.where(ratings == 0)] = np.nan

    user_means = np.nanmean(ratings, axis=1)
    movie_means = np.nanmean(ratings, axis=0)

    return {'user_means' : user_means, 'movie_means' : movie_means}

结果:

>>> get_means(ratings)
{'movie_means': array([ 2.33333333,  4.        ,  4.        ,         nan]), 

'user_means': array([ 3.33333333,  2.5       ,  4.        ])}

答案 2 :(得分:2)

另一种方法是使用屏蔽数组,屏蔽0值。例如(使用@ Akavali的样本数据):

In [30]: ratings = np.array([[1,4,5,0],
   ....:                     [2,0,3,0],
   ....:                     [4,0,0,0]], dtype=np.float)

使用ratings作为掩码创建ratings==0的蒙版版本:

In [31]: mratings = np.ma.masked_array(ratings, mask=ratings==0)

In [32]: mratings
Out[32]: 
masked_array(data =
 [[1.0 4.0 5.0 --]
 [2.0 -- 3.0 --]
 [4.0 -- -- --]],
             mask =
 [[False False False  True]
 [False  True False  True]
 [False  True  True  True]],
       fill_value = 1e+20)

现在计算每个轴的平均值:

In [33]: mratings.mean(axis=0)
Out[33]: 
masked_array(data = [2.3333333333333335 4.0 4.0 --],
             mask = [False False False  True],
       fill_value = 1e+20)

In [34]: mratings.mean(axis=1)
Out[34]: 
masked_array(data = [3.3333333333333335 2.5 4.0],
             mask = [False False False],
       fill_value = 1e+20)