我有一个庞大的数据框(400万行和25列)。我正在尝试调查2个分类列。其中一个有大约5000个级别(app_id),另一个有50个级别(app_category)。
我已经看到app_id中的每个级别都有一个app_category的唯一值。我如何编码来证明这一点?
我尝试过这样的事情:
app_id_unique = list(train['app_id'].unique())
for unique in app_id_unique:
train.loc[train['app_id'] == unique].app_category.nunique()
此代码需要永远。