应用错误收集

Spark-有效地存储分类变量

时间：2019-02-08 17:53:06

标签： apache-spark pyspark apache-spark-sql

我有一个拥有数十亿条记录的数据框。我有一些仅具有数千个唯一值的字符串列-即它们是类别。

出于空间考虑，按原样存储字符串没有任何意义。例如，pandas使用categorical data type处理此问题，它提取了字符串和索引映射之间的映射。

我想知道火花中是否有类似的东西。还是我必须手动创建将字符串映射到手动创建的索引的表？

0 个答案:

没有答案