加入后PySpark删除列

时间:2019-01-03 18:26:19

标签: pyspark

我有以下代码:

S

我发现最后一行从数据集中删除了'adjTransaction date字段,但是GroupBYFld仍然存在。

如果我只是这样做:

a = df.alias('a')
b = dfDates.alias('b')
cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld]
c= b.join(a, cond, 'left')

c=c.drop('adjTransactionDate','a.GroupByFld')

然后将两个GroupByFld从数据集中删除。

如何仅删除属于源A的GroupByFld?

1 个答案:

答案 0 :(得分:0)

无法找出问题,但最终改为这样做:

a = df.alias('a')
b = dfDates.alias('b')
cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld]
c= b.join(a, cond, 'left').select(b.TransactionDate, b.GroupByFld,a.Amount)
c.show()