我从this question看到Spark节点有效地直接沟通"但我不太关心理论,而是更多关注实现。 Here它显示在" ###加密"在页面底部附近的部分,您可以将Spark配置为使用许多SSL协议来保证安全性,这至少对我来说,它建议使用某种形式的HTTP进行通信。我的问题实际上有两个部分:Spark节点使用什么协议进行通信,以及为此传输格式化的数据如何?
答案 0 :(得分:6)
Spark使用RPC(Netty)在执行程序进程之间进行通信。您可以查看NettyRpcEndpointRef
类以查看实际实现。
为了改组数据,我们从负责提供数据块的BlockManager
开始。每个执行程序进程都有一个。在内部BlockStoreShuffleReader
,使用SerializerManager
管理来自不同执行程序的读取。该管理器包含一个实际的序列化程序,由spark.serializer
属性定义:
val serializer = instantiateClassFromConf[Serializer](
"spark.serializer", "org.apache.spark.serializer.JavaSerializer")
logDebug(s"Using serializer: ${serializer.getClass}")
当BlockManager
尝试读取块时,它使用该底层配置中的串行器。它可以是KryoSerializer
或JavaSerializer
,具体取决于您的设置。
底线,用于读取和编写混洗数据Spark使用用户定义的序列化器。
对于任务序列化,这有点不同。
Spark使用名为closureSerializer
的变量,默认为JavaSerializerInstance
,这意味着Java序列化。您可以在DAGScheduler.submitMissingTasks
方法中看到这一点:
val taskBinaryBytes: Array[Byte] = stage match {
case stage: ShuffleMapStage =>
JavaUtils.bufferToArray(
closureSerializer.serialize((stage.rdd, stage.shuffleDep): AnyRef))
case stage: ResultStage =>
JavaUtils.bufferToArray(closureSerializer.serialize((stage.rdd, stage.func): AnyRef))
}
被序列化并发送给每个执行程序的实际对象称为TaskDescription
:
def encode(taskDescription: TaskDescription): ByteBuffer = {
val bytesOut = new ByteBufferOutputStream(4096)
val dataOut = new DataOutputStream(bytesOut)
dataOut.writeLong(taskDescription.taskId)
dataOut.writeInt(taskDescription.attemptNumber)
dataOut.writeUTF(taskDescription.executorId)
dataOut.writeUTF(taskDescription.name)
dataOut.writeInt(taskDescription.index)
// Write files.
serializeStringLongMap(taskDescription.addedFiles, dataOut)
// Write jars.
serializeStringLongMap(taskDescription.addedJars, dataOut)
// Write properties.
dataOut.writeInt(taskDescription.properties.size())
taskDescription.properties.asScala.foreach { case (key, value) =>
dataOut.writeUTF(key)
// SPARK-19796 -- writeUTF doesn't work for long strings, which can happen for property values
val bytes = value.getBytes(StandardCharsets.UTF_8)
dataOut.writeInt(bytes.length)
dataOut.write(bytes)
}
// Write the task. The task is already serialized, so write it directly to the byte buffer.
Utils.writeByteBuffer(taskDescription.serializedTask, bytesOut)
dataOut.close()
bytesOut.close()
bytesOut.toByteBuffer
}
从CoarseGrainedSchedulerBackend.launchTasks
方法通过RPC发送:
executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
到目前为止,我所展示的有关启动任务的内容。为了改组数据,Spark拥有一个BlockStoreShuffleReader
来管理来自不同执行者的读取。