标签: apache-spark
我想创建一个只有10行的小型数据框。我想强制将此数据帧分发到两个工作程序节点。我的集群只有两个工作节点。我该怎么办?
当前,每当我创建一个如此小的数据框时,它就只能保存在一个工作节点中。
我知道,Spark是为大数据而构建的,这个问题没有多大意义。但是,从概念上讲,我只是想知道强制将Spark数据帧拆分到所有工作程序节点上是否可行或可行(考虑到只有10-50行的非常小的数据帧)。
或者,这是完全不可能的,我们必须依靠Spark主数据来分发数据帧吗?