Question

我有一个约4mil observations的数据集。我正在做一些简单的转换。但是，前几对所有4m obs都可以正常工作，但后几对仅适用于前1.2m行，然后对其余所有行返回NaN。在那种情况下，我看不到这些行中的数据有什么不同。根据我的代码编写方式，我想知道这是内存问题还是其他问题。

无论如何，这是一个简短的摘要。下面的第一个转换对所有4m行都适用，第二个转换最多只能对120m行运行，然后抛出NaN。有什么想法吗？

谢谢！

#CREATE VAR FOR NUMBER OF PPL WHO'VE CLIMBED EACH ROUTE (SENDERS)
senders = routes.groupby(['route_id'])['user_id'].transform('nunique')
routes['senders'] = senders
routes = routes.reset_index()
routes = routes.drop(['index'], axis=1)

#CREATE VAR FOR WEIGHTED AVG RATING
avg_rating = routes.groupby(['route_id'])['rating'].mean().astype('float64')
routes['avg_rating'] = avg_rating.astype('float64')
routes['war'] = routes.sends * routes.avg_rating
routes = routes.reset_index()
routes = routes.drop(['index'], axis=1)

熊猫计算仅适用于所有行的第一季度

0 个答案: