标签: apache-spark pyspark apache-spark-sql
我有一个拥有数十亿条记录的数据框。 我有一些仅具有数千个唯一值的字符串列-即它们是类别。
出于空间考虑,按原样存储字符串没有任何意义。例如,pandas使用categorical data type处理此问题,它提取了字符串和索引映射之间的映射。
我想知道火花中是否有类似的东西。 还是我必须手动创建将字符串映射到手动创建的索引的表?