使用单个DF和DS可以创建的最大列数是多少?

时间:2018-03-24 07:25:32

标签: apache-spark apache-spark-sql

背景 - 一个月内我将启动一个数据集大约有300列的项目。

问题 - Spark数据帧和数据集中支持的最大列数是多少?

注意 - 我是dataframe / dataset的新手

1 个答案:

答案 0 :(得分:1)

我的DF包含大约280列,并且它没有问题。

对于DS,它有点复杂。 java中有254个参数限制,因此您无法构建更宽的DS(因为它基于java类)。
如果您可以控制数据的结构,我建议将列分组到结构中,它将允许您克服254限制,并使其更容易使用(如果您以逻辑方式对列进行分组)

另外,请确保以柱状格式(如镶木地板)存储数据,以利用sparks谓词下推功能 - 当您使用此类宽表时,它将显着提高您的性能