在Dask数据框操作中引用新创建的列

时间:2018-08-17 11:06:07

标签: python pandas dask

ddf['tx_code'] = ddf.apply(setTxCode,axis=1)

ddf = ddf.groupby(['CUST_ID','tx_code']).agg({'TRAN_AMT':sum})

ddf = ddf[ddf.tx_code=='SLIP']

df = ddf.compute()

通过说出第三次操作给我错误 DataFrame对象没有属性tx_code

1 个答案:

答案 0 :(得分:1)

执行df[i] = df["timeStamp"].apply(lambda x : getattr(x, i)) 时,通常会返回一个数据框,该数据框具有分组列条目作为索引,而不是列。这与大熊猫的行为相同。如果要选择一个作为列,可以执行groupby().agg(),也可以直接引用索引;在这种情况下,我会选择前者,因为多索引很难使用:

df.reset_index()