应用错误收集

如何将这些变量添加到RDD的Partition类中？

你知道，在spark中，任务并不直接映射到单个RDD的转换，它可能是几个RDD的组合＆＃39;。因此，您希望执行程序访问的内容非常模糊，我假设您希望RDD的compute(part: Partition, context: TaskContext)方法可以访问变量，这些变量在执行程序中执行。

正如compute签名所解释的那样，它只会获得Partition＆amp; TaskContext，鉴于TaskContext与多个转换相关且对RDD透明，答案只能存在于Partition中。

Partition是在驱动程序中调用的getPartitions方法中创建的，您可以覆盖RDD的getPartitions以返回特定类型的Partition。

因此，我建议的整个程序是：

创建class YourPartition(rddId: Int, idx: Int, val your_variable: Any, val your_second_variable: Any .....) extends Partition
覆盖返回def getPartitions: Array[Partition]

Array[YourPartition]

在compute(part: Partition, context: TaskContext)中，将部分转换为YourPartition的实例，并使用您在此处创建的字段。