我有两个数据框
我想进行左联接,因此join df必须具有1000万条记录和500列
df1.join(df2, "id", "left_outer")
它给我错误 错误:类型不匹配:
found : String("id")
required: org.apache.spark.sql.Column
该怎么办,以及我何时尝试
它给了我org.apache.spark.sql.AnalysisException:字符串类型的联接条件'id'不是布尔值。
该怎么办?
答案 0 :(得分:0)
您需要提供列引用-如错误消息中所述。您可以通过导入spark.implicits._
并使用$
为id
列加上别名来实现:
导入df1.sparkSession.implicits._ df1.join(df2,$“ id”,“ left_outer”)