如何为Spark应用程序读取和写入HDFS字节?

时间:2016-04-19 10:36:03

标签: apache-spark

我想为spark应用程序收集不同的指标,如果有人知道如何读取和写入HDFS字节请告诉我?

1 个答案:

答案 0 :(得分:0)

我正在寻找相同的信息而我无法在任何地方找到这些信息:Spark文档或Spark用户邮件列表(即使有些人都是asking the question)都给了我信息。

但是,我在互联网上发现了some clues,表明它是由指标中的Spark提供的。

我正在处理某些应用程序日志(历史记录服务器提供的日志),Input MetricsOutput Metrics似乎出现在Task Metrics中每个SparkListenerTaskEnd事件都会为每个任务提供读取和写入的数据量。

{
  "Event": "SparkListenerTaskEnd",
  ...
  "Task Metrics": {
      ...
      "Input Metrics": {
        "Bytes Read": 268566528,
        "Records Read": 2796202
      },
      "Output Metrics": {
        "Bytes Written": 0,
        "Records Written": 0
      },
      ...
  },
  ...
}

请注意,我不是100%肯定,但我得到的日志似乎与这个假设一致:)

此外,如果您正在从本地文件系统中读取,我认为这将混合在同一个指标中。