我有40个输入分类字段,例如 "的cpumodel" (1523种可能性)
他们每个人都有数千种可能性。
如果我使用get_dummies,我的熊猫表将包含许多虚拟列。 这个字段我打算用作机器学习算法的输入功能。
我该如何处理?
答案 0 :(得分:0)
在这种情况下你应该使用labelencoder。在分类列上使用它将返回一个列,其中包含表示这些变量的频率计数的数值。
参考:http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
希望有所帮助!