AWS Glue加入

时间:2019-05-07 11:39:38

标签: amazon-web-services aws-glue

我是AWS Glue的新手,正在尝试加入两个Redshift SQL查询,但不确定如何只能选择字段,因为我的主表有1000多个字段。 下面是我要在胶水中进行的查询。

SELECT v.col1, 
       v.col2, 
       s.col3 
FROM 
(
   SELECT col1,
          col2 
   FROM t1 
   WHERE col1 > 0 
) v 
LEFT JOIN 
(
   SELECT col1, 
          col3 
   FROM t2 
   WHERE col1 > 0 
   GROUP BY col1
) s 
ON v.col1 = s.col1 

1 个答案:

答案 0 :(得分:1)

如果您使用Python编写,则可以使用Spark sql或使用pysparks连接函数。

对于Spark SQL

1) Convert to a Apache Spark DataFrame using the toDF() function.
2) Make the Spark Data Frame Spark SQL Table using createOrReplaceTempView().
Then run sql and to what you posted above.

OR

使用PySpark

left_join = t1.join(t2, t1.col1 == t2.name,how='left')
left_join.filter(col('col1' > 0)) # Then filter afterwards

对您有用吗?