如何在spark中获取像记录计数,字节写入等的FileOutputFormat统计信息?

时间:2016-03-02 18:06:32

标签: java hadoop apache-spark

在Hadoop中,当我使用FileOutputFormat时,我在最后得到一份报告,描述了日志中记录的数量,写入的字节数等(我认为这是作业跟踪器日志)。

现在在Spark中我通过FileOutputFormat方法使用相同的saveAsNewAPIHadoopDataset

myPairRdd.saveAsNewAPIHadoopDataset(config);  

但我无法弄清楚如何从FileOutputFormat收集统计数据。

在Spark应用程序中,我使用累加器作为计数器来获取一些统计信息,但我想在FileOutputFormat中收集统计信息并在最后报告它。

我甚至愿意自己编写FileOutputFormat& RecordWriter委托人,它会计算记录并将记录的实际写入委托给(内部)FileOutputFormat。我有点担心在用户定义的记录编写器中运行计数,因为我不确定如何在所有任务中从所有编写器收集数据。

收集此信息的最佳方式是什么?

0 个答案:

没有答案