Spark-有效地存储分类变量

时间:2019-02-08 17:53:06

标签: apache-spark pyspark apache-spark-sql

我有一个拥有数十亿条记录的数据框。 我有一些仅具有数千个唯一值的字符串列-即它们是类别。

出于空间考虑,按原样存储字符串没有任何意义。例如,pandas使用categorical data type处理此问题,它提取了字符串和索引映射之间的映射。

我想知道火花中是否有类似的东西。 还是我必须手动创建将字符串映射到手动创建的索引的表?

0 个答案:

没有答案