我正在尝试编写一个for循环,该循环将遍历数据帧中索引的一个子集,每个循环返回仅更改一行的数据帧。
这里有一些虚拟代码来演示我的意思:
# Two columns of random numbers
df = pd.DataFrame(np.random.randn(10,2),columns=list('ab'))
# The index values where row 'a' > 0
indices = df.loc[df['a'] > 0].index
这就是我要尝试的方式:
for index in indices:
dummy = df
dummy.loc[index,'a'] = 'Hello'
dummy.loc[index,'b'] = 'World'
print(dummy)
哪个返回:
a b
0 -1.30278 0.592978
1 Hello World
2 0.0113196 0.441662
3 1.59222 -0.152032
4 -0.293761 -0.519106
5 -0.402177 1.27412
6 1.24692 -0.203043
7 0.232682 -1.29515
8 -1.03781 0.89598
9 0.000474012 0.572173
a b
0 -1.30278 0.592978
1 Hello World
2 Hello World
3 1.59222 -0.152032
4 -0.293761 -0.519106
5 -0.402177 1.27412
6 1.24692 -0.203043
7 0.232682 -1.29515
8 -1.03781 0.89598
9 0.000474012 0.572173
a b
0 -1.30278 0.592978
1 Hello World
2 Hello World
3 Hello World
4 -0.293761 -0.519106
5 -0.402177 1.27412
6 1.24692 -0.203043
7 0.232682 -1.29515
8 -1.03781 0.89598
9 0.000474012 0.572173
等...
我正在尝试在a
行的每次迭代中重置b
和dummy = df
的值,但是它没有按我期望的方式工作。
但是我想要产生的是:
a b
0 -1.30278 0.592978
1 Hello World
2 0.0113196 0.441662
3 1.59222 -0.152032
4 -0.293761 -0.519106
5 -0.402177 1.27412
6 1.24692 -0.203043
7 0.232682 -1.29515
8 -1.03781 0.89598
9 0.000474012 0.572173
a b
0 -1.30278 0.592978
1 0.74578 0.482945
2 Hello World
3 1.59222 -0.152032
4 -0.293761 -0.519106
5 -0.402177 1.27412
6 1.24692 -0.203043
7 0.232682 -1.29515
8 -1.03781 0.89598
9 0.000474012 0.572173
a b
0 -1.30278 0.592978
1 0.74578 0.482945
2 0.01131 0.441662
3 Hello World
4 -0.293761 -0.519106
5 -0.402177 1.27412
6 1.24692 -0.203043
7 0.232682 -1.29515
8 -1.03781 0.89598
9 0.000474012 0.572173
等...
任何帮助将不胜感激!
答案 0 :(得分:0)
您应在循环中添加.copy()
for key,index in enumerate(indices):
dummy = df.copy()
dummy.loc[index,'a'] = 'Hello'
dummy.loc[index,'b'] = 'World'
print(dummy)
答案 1 :(得分:0)
您可能期望dummy = df
复制df
。 dummy
实际上指向与df
相同的基础对象,因此对dummy
所做的任何更改也将对df
进行。您可以通过复制df
来解决此问题,但是一种更简单有效的方法是在打印之前保存原始值,然后在打印后恢复原始值。
for index in indices:
orig_values = df.loc[index, ['a', 'b']]
df.loc[index, ['a', 'b']] = ['Hello', 'World']
print(df)
df.loc[index, ['a', 'b']] = orig_values