Question

我有两个数据框

我想进行左联接，因此join df必须具有1000万条记录和500列

  df1.join(df2, "id", "left_outer")

它给我错误错误：类型不匹配：

  found   : String("id")
  required: org.apache.spark.sql.Column

该怎么办，以及我何时尝试

它给了我org.apache.spark.sql.AnalysisException：字符串类型的联接条件'id'不是布尔值。

该怎么办？

Answer 1

您需要提供列引用-如错误消息中所述。您可以通过导入spark.implicits._并使用$为id列加上别名来实现：

导入df1.sparkSession.implicits._ df1.join（df2，$“ id”，“ left_outer”）