在numpy数组中替换空格

时间:2013-11-10 00:33:01

标签: python arrays numpy

我的numpy数组中的第三列是Age。在本专栏中,约75%的条目有效,25%为空白。第2列是性别,并使用一些操作我计算出我数据集中男性的平均年龄为30.我的数据集中女性的平均年龄为28岁。

我想将男性的所有空白年龄值替换为30岁,女性的所有空白年龄值为28岁。

但我似乎无法做到这一点。任何人都有建议或知道我做错了什么?

这是我的代码:

# my entire data set is stored in a numpy array defined as x

ismale = x[::,1]=='male'
maleAgeBlank = x[ismale][::,2]==''
x[ismale][maleAgeBlank][::,2] = 30 

无论出于何种原因,当我完成上述代码时,我输入x来显示数据集,即使我将它们设置为30,空白仍然存在。注意我不能{{1}因为该列表将包括一些女性数据点,因为尚未排除女性数据点。

有没有办法得到我想要的东西?出于某种原因,如果我执行x[maleAgeBlank](将“男性”设置为等于1的列),则可行,但x[ismale][::,1] = 1不起作用。

数组样本:

x[ismale][maleAgeBlank][::,2] = 30

请注意,在上面的输出

中,我已将第2列更改为0,女性已将1更改为男性

3 个答案:

答案 0 :(得分:2)

您可以使用where功能:

arr = array([['3', '1', '22', '1', '0', '7.25', '2'], 
            ['3', '', '22', '1', '0', '7.25', '2']], 
           dtype='<U82')

blank = np.where(arr=='')

arr[blank] = 20

array([[u'3', u'1', u'22', u'1', u'0', u'7.25', u'2'],
       [u'3', u'20', u'22', u'1', u'0', u'7.25', u'2']], 
      dtype='<U82')

如果要更改特定列,可以执行以下操作:

male = np.where(arr[:, 1]=='') # where 1 is the column
arr[male] = 30

female = np.where(arr[:, 2]=='') # where 2 is the column
arr[female] = 28

答案 1 :(得分:2)

这个怎么样:

my_data =  np.array([['3', '1', '22', '0', '7.25', '2'],
                     ['1', '0', '38', '0', '71.2833', '0'],
                     ['3', '0', '26', '0', '7.925', '2'],
                     ['3', '0', '', '2', '23.45', '2'],
                     ['1', '1', '26', '0', '30', '0'],
                     ['3', '1', '32', '0', '7.75', '1']], 
                     dtype='<U82')

ismale = my_data[:,1] == '0'
missing_age = my_data[:, 2] == ''
maleAgeBlank = missing_age & ismale
my_data[maleAgeBlank, 2] = '30'

结果:

>>> my_data
array([[u'3', u'1', u'22', u'0', u'7.25', u'2'],
       [u'1', u'0', u'38', u'0', u'71.2833', u'0'],
       [u'3', u'0', u'26', u'0', u'7.925', u'2'],
       [u'3', u'0', u'30', u'2', u'23.45', u'2'], 
       [u'1', u'1', u'26', u'0', u'30', u'0'],
       [u'3', u'1', u'32', u'0', u'7.75', u'1']], 
      dtype='<U82')

答案 2 :(得分:0)

您可以尝试以更简单的方式迭代数组。它不是最有效的解决方案,但它应该完成工作。

for row in range(len(x)):
    if row[2] == '':
        if row[1] == 1:
            row[2] == 30
        else:
            row[2] == 28