Question

我想为spark应用程序收集不同的指标，如果有人知道如何读取和写入HDFS字节请告诉我？

Answer 1

我正在寻找相同的信息而我无法在任何地方找到这些信息：Spark文档或Spark用户邮件列表（即使有些人都是asking the question）都给了我信息。

但是，我在互联网上发现了some clues，表明它是由指标中的Spark提供的。

我正在处理某些应用程序日志（历史记录服务器提供的日志），Input Metrics和Output Metrics似乎出现在Task Metrics中每个SparkListenerTaskEnd事件都会为每个任务提供读取和写入的数据量。

{
  "Event": "SparkListenerTaskEnd",
  ...
  "Task Metrics": {
      ...
      "Input Metrics": {
        "Bytes Read": 268566528,
        "Records Read": 2796202
      },
      "Output Metrics": {
        "Bytes Written": 0,
        "Records Written": 0
      },
      ...
  },
  ...
}

请注意，我不是100％肯定，但我得到的日志似乎与这个假设一致：）

此外，如果您正在从本地文件系统中读取，我认为这将混合在同一个指标中。

如何为Spark应用程序读取和写入HDFS字节？

1 个答案: