应用错误收集

使用SparkListener

时间：2019-05-27 09:30:53

标签： scala apache-spark apache-spark-sql monitoring

我正在使用onStageCompleted中的SparkListener，试图从accumulables中挖掘出一些有用的数据。

我有兴趣找出用于监视目的的输出大小。输入行数和字节可以从第一阶段的“ internal.metrics.input.recordsRead ”和“ internal.metrics.shuffle.write.bytesWritten ”中获取，从我倒数第二个阶段的“ internal.metrics.shuffle.write.recordsWritten ”中可以找到输出行数，我不知道如何找到输出字节。

解压缩或压缩也是我的一个选择。我正在使用Spark 2.10。

1 个答案:

答案 0 :(得分：0)

看看onTaskEnd，有一个 bytesWritten 属性。数据块SparkTaskMetrics 可能也有用。

Spark 2.0.0镶木地板的分区大小
如何在SparkListener中使用DataFrame？
如何将配置属性传递给SparkListener？
在spark中保存固定大小的镶木地板输出文件
同时调用SparkListener / StreamingListener回调吗？
Spark输出JSON与Parquet文件大小差异
最佳文件大小和镶木地板块大小
使用SparkListener
在Spark中进行重复数据删除后，Parquet文件的大小增加了一倍
在将数据帧写入拼花时指定最大文件大小

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？