标签: python machine-learning scikit-learn
在scikit-learn中执行KMeans聚类时,我需要提供形状(n_samples, n_features)的数据集。数据集的每个样本对应于由user_id标识的用户,该用户不完全是一个特征。因此,如果以这种格式提供数据集,我将丢失每个样本的标识信息。
(n_samples, n_features)
user_id
那么,如何在数据集中存储user_ids?