我想为spark应用程序收集不同的指标,如果有人知道如何读取和写入HDFS字节请告诉我?
答案 0 :(得分:0)
我正在寻找相同的信息而我无法在任何地方找到这些信息:Spark文档或Spark用户邮件列表(即使有些人都是asking the question)都给了我信息。
但是,我在互联网上发现了some clues,表明它是由指标中的Spark提供的。
我正在处理某些应用程序日志(历史记录服务器提供的日志),Input Metrics
和Output Metrics
似乎出现在Task Metrics
中每个SparkListenerTaskEnd
事件都会为每个任务提供读取和写入的数据量。
{
"Event": "SparkListenerTaskEnd",
...
"Task Metrics": {
...
"Input Metrics": {
"Bytes Read": 268566528,
"Records Read": 2796202
},
"Output Metrics": {
"Bytes Written": 0,
"Records Written": 0
},
...
},
...
}
请注意,我不是100%肯定,但我得到的日志似乎与这个假设一致:)
此外,如果您正在从本地文件系统中读取,我认为这将混合在同一个指标中。