确定scikit的n_features值以学习FeatureHasher

时间:2018-07-31 11:24:43

标签: machine-learning scikit-learn feature-extraction

我有一个具有4000个唯一级别的分类列。

使用sklearn.feature_extraction.FeatureHasher进行编码时,该列 为避免冲突,n_features值应该是什么??

1 个答案:

答案 0 :(得分:0)

n_features应该尽可能大,以避免冲突。您是否可以计算所有4000个级别中的所有唯一值?如果是,则可以将n_features设置为此值。将n_features设置为非常大的值可能会占用大量RAM。通常,n_features在2 ^ 28到2 ^ 32之间就足够了