我在pandas中有一个df
import pandas as pd
df = pd.DataFrame(['AA', 'BB', 'CC'], columns = ['value'])
我想迭代df中的行。对于每一行,我想要行s value and next row
的值
像(它不起作用)的东西:
for i, row in df.iterrows():
print row['value']
i1, row1 = next(df.iterrows())
print row1['value']
因此我想要
'AA'
'BB'
'BB'
'CC'
'CC'
*Wrong index error here
此时我有解决这个问题的麻烦方法
for i in range(0, df.shape[0])
print df.irow(i)['value']
print df.irow(i+1)['value']
有更有效的方法来解决这个问题吗?
答案 0 :(得分:19)
首先,你的“混乱方式”没问题,在数据帧中使用索引没有错,这也不会太慢。 iterrows()本身并不是非常快。
你的第一个想法的版本将是:
row_iterator = df.iterrows()
_, last = row_iterator.next() # take first item from row_iterator
for i, row in row_iterator:
print(row['value'])
print(last['value'])
last = row
第二种方法可以做类似的事情,将一个索引保存到数据帧中:
last = df.irow(0)
for i in range(1, df.shape[0]):
print(last)
print(df.irow(i))
last = df.irow(i)
当速度至关重要时,您可以随时尝试并为代码计时。
答案 1 :(得分:10)
pairwise()
文档中有一个itertools
函数示例:
from itertools import tee, izip
def pairwise(iterable):
"s -> (s0,s1), (s1,s2), (s2, s3), ..."
a, b = tee(iterable)
next(b, None)
return izip(a, b)
import pandas as pd
df = pd.DataFrame(['AA', 'BB', 'CC'], columns = ['value'])
for (i1, row1), (i2, row2) in pairwise(df.iterrows()):
print i1, i2, row1["value"], row2["value"]
这是输出:
0 1 AA BB
1 2 BB CC
但是,我认为DataFrame
中的行很慢,如果你能解释一下你想要解决的问题,也许我可以建议一些更好的方法。
答案 2 :(得分:2)
这也可以通过izip
使用自身的偏移版本ping数据帧(迭代器)来解决。
当然索引错误不能以这种方式重现。
检查出来
import pandas as pd
from itertools import izip
df = pd.DataFrame(['AA', 'BB', 'CC'], columns = ['value'])
for id1, id2 in izip(df.iterrows(),df.ix[1:].iterrows()):
print id1[1]['value']
print id2[1]['value']
给出了
AA
BB
BB
CC
答案 3 :(得分:1)
我将如下使用shift()函数:
df['value_1'] = df.value.shift(-1)
[print(x) for x in df.T.unstack().dropna(how = 'any').values];
产生
AA
BB
BB
CC
CC
这是上面的代码的工作方式:
步骤1)使用移位功能
df['value_1'] = df.value.shift(-1)
print(df)
产生
value value_1
0 AA BB
1 BB CC
2 CC NaN
第2步)移调:
df = df.T
print(df)
产生:
0 1 2
value AA BB CC
value_1 BB CC NaN
第3步:取消堆叠:
df = df.unstack()
print(df)
产生:
0 value AA
value_1 BB
1 value BB
value_1 CC
2 value CC
value_1 NaN
dtype: object
第4步)删除NaN值
df = df.dropna(how = 'any')
print(df)
产生:
0 value AA
value_1 BB
1 value BB
value_1 CC
2 value CC
dtype: object
第5步)返回DataFrame的Numpy表示,并按值打印值:
df = df.values
[print(x) for x in df];
产生:
AA
BB
BB
CC
CC
答案 4 :(得分:0)
答案的组合使我的运行时间非常快。 使用 shift 方法创建下一行值的新列, 然后像@alisdt一样使用 row_iterator 函数, 但在这里我将其从 iterrows 更改为 itertuples ,即100 倍快。
我的脚本用于迭代不同长度的重复数据帧并添加 每次重复一秒钟,所以它们都是唯一的。
# create new column with shifted values from the departure time column
df['next_column_value'] = df['column_value'].shift(1)
# create row iterator that can 'save' the next row without running for loop
row_iterator = df.itertuples()
# jump to the next row using the row iterator
last = next(row_iterator)
# because pandas does not support items alteration i need to save it as an object
t = last[your_column_num]
# run and update the time duplications with one more second each
for row in row_iterator:
if row.column_value == row.next_column_value:
t = t + add_sec
df_result.at[row.Index, 'column_name'] = t
else:
# here i resetting the 'last' and 't' values
last = row
t = last[your_column_num]
希望这会有所帮助。