标签: pandas memory-management
我正在使用以下公式在数据框中添加一列,以计算每个客户的每个先前日期之间的天数,但最终导致内存不足
lapsed['Days']=lapsed[['Customer Number','GL Date']].groupby(['Customer Number']).diff()
数据框包含超过100万条记录
客户编号是int64,我当时想在上面的语句中使用数字范围,但是我不知道这是否是最好的方法
有什么建议吗?