背景 - 一个月内我将启动一个数据集大约有300列的项目。
问题 - Spark数据帧和数据集中支持的最大列数是多少?
注意 - 我是dataframe / dataset的新手
答案 0 :(得分:1)
我的DF包含大约280列,并且它没有问题。
对于DS,它有点复杂。 java中有254个参数限制,因此您无法构建更宽的DS(因为它基于java类)。
如果您可以控制数据的结构,我建议将列分组到结构中,它将允许您克服254限制,并使其更容易使用(如果您以逻辑方式对列进行分组)
另外,请确保以柱状格式(如镶木地板)存储数据,以利用sparks谓词下推功能 - 当您使用此类宽表时,它将显着提高您的性能