Question

我使用Spark Catalyst来表示openCypher查询引擎ingraph的查询计划。在查询计划过程中，我想从某个逻辑计划（Plan1）转换为另一个逻辑计划（Plan2）。（我试着保持简单的问题，所以我在这里省略了一些细节。该项目是完全开源的，所以如果需要，我很乐意提供关于why this is necessary的更多信息。）

我能找到的最佳方法是递归使用transformDown。以下是一个小示例，通过将Plan1Node实例替换为Plan2Node，将每个OpA1实例替换为OpA2，将OpB1转换为OpB2 s

import org.apache.spark.sql.catalyst.expressions.Attribute
import org.apache.spark.sql.catalyst.plans.logical.{LeafNode, LogicalPlan, UnaryNode}

trait Plan1Node extends LogicalPlan

case class OpA1() extends LeafNode with Plan1Node {
  override def output: Seq[Attribute] = Seq()
}
case class OpB1(child: Plan1Node) extends UnaryNode with Plan1Node {
  override def output: Seq[Attribute] = Seq()
}

trait Plan2Node extends LogicalPlan

case class OpA2() extends LeafNode with Plan2Node {
  override def output: Seq[Attribute] = Seq()
}
case class OpB2(child: Plan2Node) extends UnaryNode with Plan2Node {
  override def output: Seq[Attribute] = Seq()
}

object Plan1ToPlan2 {
  def transform(plan: Plan1Node): Plan2Node = {
    plan.transformDown {
      case OpA1() => OpA2()
      case OpB1(child) => OpB2(transform(child))
    }
  }.asInstanceOf[Plan2Node]
}

这种方法可以胜任。这段代码：

val p1 = OpB1(OpA1())
val p2 = Plan1ToPlan2.transform(p1)

结果：

p1: OpB1 = OpB1
+- OpA1

p2: Plan2Node = OpB2
+- OpA2

然而，使用asInstanceOf[Plan2Node]绝对是代码中的难闻气味。我考虑使用Strategy来定义转换规则，但该类用于从物理计划转换为逻辑计划。

是否有更优雅的方式来定义逻辑计划之间的转换？或者正在使用被视为反模式的多个逻辑计划？

Answer 1

（回答我自己的问题。）

将transformDown更改为简单模式匹配（match）和递归调用解决了类型问题：

object Plan1ToPlan2 {
  def transform(plan: Plan1Node): Plan2Node = {
    plan match {
      case OpA1() => OpA2()
      case OpB1(child) => OpB2(transform(child))
    }
  }
}

这似乎是一种类型安全的（基于我对Catalyst的有限理解）惯用解决方案。

在Spark Catalyst中从逻辑计划转换为另一个逻辑计划

1 个答案: