如何将一列数据框的所有元素设置为数组?

时间:2019-03-22 16:29:04

标签: python pandas numpy

我只想知道如何将数据框的一列的所有元素设置为Pandas中的数组。

就这样,第一和第二列

  a b c d   one    two
0 1 2 3 4 [1, 2] [1, 2]
1 2 2 3 4 [2, 2] [2, 2]
2 3 2 3 4 [3, 2] [3, 2]

我已经尝试过,但是只能这样:

d['one']=[[1,2],[2,2],[3,2]]

如果我想使用numpy数组而不是python内置数组,例如:

d['one']=np.array([[1,2],[2,2],[3,2]])

涉及到:

  a b c d one  two
0 1 2 3 4  1 [1, 2]
1 2 2 3 4  2 [2, 2]
2 3 2 3 4  3 [3, 2]

或者我想一次将一列设置为一个相同的数组,例如

d['one']=[1,2], or d['c']=[1,2]

赞:

  a b c d   one    two
0 1 2 3 4 [1, 2] [1, 2]
1 2 2 3 4 [1, 2] [2, 2]
2 3 2 3 4 [1, 2] [3, 2]

它有错误:

ValueError:值的长度与索引的长度不匹配

此外,如果我想根据条件将b列的值更改为数组,我发现我不能这样做。因为我需要使用条件,所以存在一系列分配操作,这意味着我无法将列设置为这样的数组:

d['b']=[[1,2],[6,7],[6,7]]

,一次。我需要逐步进行。

例如,将b列设置为[1,2],其中a = 1首先

d.loc[d['a']==1,'b']=[1,2]
  a     b c d   one    two
0 1 [1,2] 3 4 [1, 2] [1, 2]
1 2     2 3 4 [2, 2] [2, 2]
2 3     2 3 4 [3, 2] [3, 2]

然后将b列设置为[6,7],[6,7],其中a = 2或a = 3,

d.loc[(d['a']==2)|(d['a']==3),'b']=[6,7]
  a    b  c d   one    two
0 1 [1,2] 3 4 [1, 2] [1, 2]
1 2 [6,7] 3 4 [2, 2] [2, 2]
2 3 [6,7] 3 4 [3, 2] [3, 2]

前一个错误:

使用可迭代的设置时,必须具有相同的len键和值

如果我以其他方式这样做:

d['b'][0]=[1,2]

也错误:

ValueError:设置具有序列的数组元素。

后面的一个是:

  a b c d   one    two
0 1 2 3 4 [1, 2] [1, 2]
1 2 6 3 4 [2, 2] [2, 2]
2 3 7 3 4 [3, 2] [3, 2]

,这不是我想要的,那么如何写才能达到这种效果?

总结一下,

  1. 如何使用numpy数组实现此目的?如何一次将一列设置为一个相同的数组?

  2. 如何根据条件将列的值更改为数组?

1 个答案:

答案 0 :(得分:0)

再现您的示例:

考虑数据框:

>> d = pd.DataFrame({'a': [1, 2, 3],
>>                   'b': [2, 2, 2],
>>                   'c': [3, 3, 3],
>>                   'd': [4, 4, 4]})

您测试的代码生成一个列表列表,数据框将每个列表解释为一行的值:

>> d['one']=[[1,2],[2,2],[3,2]]
>> print(d['one'][0])
>> print(type(d['one'][0]))
[1, 2]
<class 'list'>

现在,将numpy.array存储到数据框中:

如果您构建数组列表,则可以根据需要存储它:

>> two = [np.array([1,2]), np.array([2,2]),np.array([3,2])]
>> d['two']= two
>> print(d['two'][0])
>> print(type(d['two'][0]))
[1 2]
<class 'numpy.ndarray'>

为便于执行此操作,可以使用lambda / apply函数:

>> d['three'] = [[1,2],[2,2],[3,2]]
>> d['three'] = d['three'].apply(lambda x: tuple(x)).apply(np.array)
>> print(d['three'][0])
>> print(type(d['three'][0]))
[1 2]
<class 'numpy.ndarray'>

按照您的描述获取数据

还要使用lambda / apply检查数组的前value == 3或列three是否符合条件,

d[d.apply(lambda x: x['three'][0] == 3, axis=1)]
    a   b   c   d   one two three
2   3   2   3   4   [3, 2]  [3, 2]  [3, 2]