应用错误收集

spark 1.6中的散列编码器用于高基数分类变量

时间：2019-05-15 10:02:59

标签： machine-learning pyspark apache-spark-mllib feature-extraction

伙计们，我有一个庞大的数据集，其中包含高基数分类变量，因此，我想使用一些哈希编码器来转换分类变量。我在1.6中找不到任何哈希编码器。我发现2.1及更高版本确实具有一些哈希技术。关于如何在1.6中做到这一点有什么想法吗？

0 个答案:

没有答案