我是AWS Glue的新手,正在尝试加入两个Redshift SQL查询,但不确定如何只能选择字段,因为我的主表有1000多个字段。 下面是我要在胶水中进行的查询。
SELECT v.col1,
v.col2,
s.col3
FROM
(
SELECT col1,
col2
FROM t1
WHERE col1 > 0
) v
LEFT JOIN
(
SELECT col1,
col3
FROM t2
WHERE col1 > 0
GROUP BY col1
) s
ON v.col1 = s.col1
答案 0 :(得分:1)
如果您使用Python编写,则可以使用Spark sql或使用pysparks连接函数。
对于Spark SQL
1) Convert to a Apache Spark DataFrame using the toDF() function.
2) Make the Spark Data Frame Spark SQL Table using createOrReplaceTempView().
Then run sql and to what you posted above.
OR
使用PySpark
left_join = t1.join(t2, t1.col1 == t2.name,how='left')
left_join.filter(col('col1' > 0)) # Then filter afterwards
对您有用吗?