熊猫计算仅适用于所有行的第一季度

时间:2019-01-03 04:16:56

标签: pandas-groupby nan mean

我有一个约4mil observations的数据集。我正在做一些简单的转换。但是,前几对所有4m obs都可以正常工作,但后几对仅适用于前1.2m行,然后对其余所有行返回NaN。在那种情况下,我看不到这些行中的数据有什么不同。根据我的代码编写方式,我想知道这是内存问题还是其他问题。

无论如何,这是一个简短的摘要。下面的第一个转换对所有4m行都适用,第二个转换最多只能对120m行运行,然后抛出NaN。有什么想法吗?

谢谢!

#CREATE VAR FOR NUMBER OF PPL WHO'VE CLIMBED EACH ROUTE (SENDERS)
senders = routes.groupby(['route_id'])['user_id'].transform('nunique')
routes['senders'] = senders
routes = routes.reset_index()
routes = routes.drop(['index'], axis=1)

#CREATE VAR FOR WEIGHTED AVG RATING
avg_rating = routes.groupby(['route_id'])['rating'].mean().astype('float64')
routes['avg_rating'] = avg_rating.astype('float64')
routes['war'] = routes.sends * routes.avg_rating
routes = routes.reset_index()
routes = routes.drop(['index'], axis=1)

0 个答案:

没有答案