spark 1.6中的散列编码器用于高基数分类变量

时间:2019-05-15 10:02:59

标签: machine-learning pyspark apache-spark-mllib feature-extraction

伙计们,我有一个庞大的数据集,其中包含高基数分类变量,因此,我想使用一些哈希编码器来转换分类变量。我在1.6中找不到任何哈希编码器。我发现2.1及更高版本确实具有一些哈希技术。关于如何在1.6中做到这一点有什么想法吗?

0 个答案:

没有答案