我有一个具有4000个唯一级别的分类列。
使用sklearn.feature_extraction.FeatureHasher
进行编码时,该列
为避免冲突,n_features值应该是什么??
答案 0 :(得分:0)
n_features
应该尽可能大,以避免冲突。您是否可以计算所有4000个级别中的所有唯一值?如果是,则可以将n_features
设置为此值。将n_features
设置为非常大的值可能会占用大量RAM。通常,n_features在2 ^ 28到2 ^ 32之间就足够了