我有一个约4mil observations
的数据集。我正在做一些简单的转换。但是,前几对所有4m obs
都可以正常工作,但后几对仅适用于前1.2m行,然后对其余所有行返回NaN
。在那种情况下,我看不到这些行中的数据有什么不同。根据我的代码编写方式,我想知道这是内存问题还是其他问题。
无论如何,这是一个简短的摘要。下面的第一个转换对所有4m行都适用,第二个转换最多只能对120m行运行,然后抛出NaN
。有什么想法吗?
谢谢!
#CREATE VAR FOR NUMBER OF PPL WHO'VE CLIMBED EACH ROUTE (SENDERS)
senders = routes.groupby(['route_id'])['user_id'].transform('nunique')
routes['senders'] = senders
routes = routes.reset_index()
routes = routes.drop(['index'], axis=1)
#CREATE VAR FOR WEIGHTED AVG RATING
avg_rating = routes.groupby(['route_id'])['rating'].mean().astype('float64')
routes['avg_rating'] = avg_rating.astype('float64')
routes['war'] = routes.sends * routes.avg_rating
routes = routes.reset_index()
routes = routes.drop(['index'], axis=1)