Question

我有一个火花程序，我在其中使用循环并在循环中生成一些Dataframe。它有时工作正常，但有时会出现Catalyst错误。这是错误消息。

org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:
TungstenAggregate(key=[], functions=[(count(1),mode=Final,isDistinct=false)], output=[count#271L])
+- TungstenExchange SinglePartition, None
+- TungstenAggregate(key=[], functions=[(count(1),mode=Partial,isDistinct=false)], output=[count#274L])
  +- Project
     +- SortMergeJoin [cust_id#204L], [cust_id#234L]
        :- Project [cust_id#204L]
        :  +- SortMergeJoin [cust_id#204L], [cust_id#228L]
        :     :- Project [cust_id#204L]
        :     :  +- SortMergeJoin [cust_id#204L], [cust_id#222L]
        :     :     :- Project [cust_id#204L]
        :     :     :  +- SortMergeJoin [cust_id#204L], [cust_id#216L]
        :     :     :     :- Project [cust_id#204L]
        :     :     :     :  +- SortMergeJoin [cust_id#204L], [cust_id#210L]
        :     :     :     :     :- Sort [cust_id#204L ASC], false, 0
        :     :     :     :     :  +- TungstenExchange hashpartitioning(cust_id#204L,200), None
        :     :     :     :     :     +- Union

循环中的代码工作正常，如果我在没有循环的情况下运行它可以完美地工作。为什么我收到此错误？

Spark中有循环时出现Catalyst优化器错误

0 个答案: