如何将单个项目添加到序列化的熊猫系列中。我知道这不是最有效的记忆方式,但我仍然需要这样做。
一些事情:
>> x = Series()
>> N = 4
>> for i in xrange(N):
>> x.some_appending_function(i**2)
>> print x
0 | 0
1 | 1
2 | 4
3 | 9
另外,我如何向pandas DataFrame添加一行?
答案 0 :(得分:35)
如何添加单个项目。这不是很有效,但遵循你的要求:
x = p.Series()
N = 4
for i in xrange(N):
x = x.set_value(i, i**2)
生成x:
0 0
1 1
2 4
3 9
显然,有更好的方法可以一次性生成这个系列。
对于您的第二个问题,请检查SO问题add one row in a pandas.DataFrame的答案和参考。
答案 1 :(得分:27)
TLDR:不要逐项将项目附加到系列中,最好使用有序集合进行扩展
我认为目前形式的问题有点棘手。接受的答案确实回答了这个问题。但是我越多地使用熊猫,我就越了解将一个项目逐个添加到系列中是一个坏主意。我会尝试解释为什么熊猫初学者。
您可能认为将数据附加到给定系列可能允许您重用某些资源,但实际上Series只是一个存储索引和值数组之间关系的容器。每个都是引擎盖下的numpy.array,索引是不可变的。向系列添加索引中缺少标签的项目时,会创建一个大小为n + 1的新索引,以及一个大小相同的新值值数组。这意味着当您逐个追加项目时,每步创建另外两个n + 1大小的数组。
顺便说一下,你不能按位置附加一个新项目(你会得到一个IndexError)并且索引中的标签不必是唯一的,也就是说当你为一个带有标签的值赋值时,你指定了具有标签的所有现有项的值,并且在这种情况下不附加新行。这可能会导致细微的错误。
故事的寓意是你不应该逐个追加数据,你应该更好地扩展有序集合。问题是你不能扩展系列就地。这就是为什么组织代码更好,这样您就不需要通过引用更新系列的特定实例。
如果你自己创建标签并且它们正在增加,最简单的方法是将新项添加到字典中,然后从字典中创建一个新系列(它对键进行排序)并将系列附加到旧系列。如果键没有增加,那么您需要为新标签和新值创建两个单独的列表。
以下是一些代码示例:
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: s = pd.Series(np.arange(4)**2, index=np.arange(4))
In [4]: s
Out[4]:
0 0
1 1
2 4
3 9
dtype: int64
In [6]: id(s.index), id(s.values)
Out[6]: (4470549648, 4470593296)
当我们更新现有项目时,索引和值数组保持不变(如果您不更改值的类型)
In [7]: s[2] = 14
In [8]: id(s.index), id(s.values)
Out[8]: (4470549648, 4470593296)
但是当你添加一个新项目时,会生成一个新索引和一个新值数组:
In [9]: s[4] = 16
In [10]: s
Out[10]:
0 0
1 1
2 14
3 9
4 16
dtype: int64
In [11]: id(s.index), id(s.values)
Out[11]: (4470548560, 4470595056)
那就是如果你要附加几个项目,在字典中收集它们,创建一个系列,将它附加到旧系列并保存结果:
In [13]: new_items = {item: item**2 for item in range(5, 7)}
In [14]: s2 = pd.Series(new_items)
In [15]: s2 # keys are guaranteed to be sorted!
Out[15]:
5 25
6 36
dtype: int64
In [16]: s = s.append(s2); s
Out[16]:
0 0
1 1
2 14
3 9
4 16
5 25
6 36
dtype: int64
答案 2 :(得分:13)
如果您有索引和值。然后您可以添加到Series:
obj = Series([4,7,-5,3])
obj.index=['a', 'b', 'c', 'd']
obj['e'] = 181
这将为Series添加一个新值(在系列的末尾)。
答案 3 :(得分:12)
您可以使用append函数为其添加另一个元素。只有在你追加它之前制作一系列新元素:
test.append(pd.Series(200, index=[101]))
答案 4 :(得分:7)
添加到joquin的答案中,以下表格可能会更清晰(至少更好阅读):
x = p.Series()
N = 4
for i in xrange(N):
x[i] = i**2
会产生相同的输出
也有点不那么正统但是如果你想简单地添加一个元素到最后:
x=p.Series()
value_to_append=5
x[len(x)]=value_to_append
答案 5 :(得分:0)
就不推荐使用@joaqin的solution,因为在以后的熊猫版本中将删除set_value
方法,我会提到另一种选择,使用{{ 1}}访问者。
.at[]
它产生相同的输出。
In [1]: import pandas as pd
x = pd.Series()
N = 4
for i in range(N):
x.at[i] = i**2
答案 6 :(得分:0)
这是在不更改系列名称的情况下在一行中添加多个项目的另一种想法。但是,这可能没有其他答案有效。
>>> df = pd.Series(np.random.random(5), name='random')
>>> df
0 0.363885
1 0.402623
2 0.450449
3 0.172917
4 0.983481
Name: random, dtype: float64
>>> df.to_frame().T.assign(a=3, b=2, c=5).squeeze()
0 0.363885
1 0.402623
2 0.450449
3 0.172917
4 0.983481
a 3.000000
b 2.000000
c 5.000000
Name: random, dtype: float64
答案 7 :(得分:0)