我有一个带有pyspark.sql
的Apache Spark数据加载和转换应用程序,在运行AttributeError
或其他运行时异常之前运行半小时。
我想用一个小数据样本端到端地测试我的应用程序,比如Apache Pig的ILLUSTRATE
。对数据进行抽样并没有多大帮助。有一种简单的方法可以做到这一点吗?
答案 0 :(得分:2)
DAG Visualization
。这是代表你工作的图表更多信息:
答案 1 :(得分:2)
这听起来像一个可以由regex101轻松处理的想法。它使您可以访问任何Spark应用程序的Web UI可能向您显示的所有底层细节。在驱动程序(即DAGScheduler
和TaskScheduler
与SchedulerBackend
)和执行程序之间飞行的所有事件也会发布到已注册的SparkListeners。
Spark侦听器是SparkListener
开发人员API的实现(它是SparkListenerInterface的扩展,其中所有回调方法都是no-op / do-nothing)。
Spark使用Spark侦听器进行Web UI,事件持久性(针对Spark History Server),执行程序和其他服务的动态分配。
您可以开发自己的自定义Spark侦听器,并使用SparkListener方法或spark.extraListeners
设置进行注册。