我有以下代码:
S
我发现最后一行从数据集中删除了'adjTransaction date字段,但是GroupBYFld仍然存在。
如果我只是这样做:
a = df.alias('a')
b = dfDates.alias('b')
cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld]
c= b.join(a, cond, 'left')
c=c.drop('adjTransactionDate','a.GroupByFld')
然后将两个GroupByFld从数据集中删除。
如何仅删除属于源A的GroupByFld?
答案 0 :(得分:0)
无法找出问题,但最终改为这样做:
a = df.alias('a')
b = dfDates.alias('b')
cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld]
c= b.join(a, cond, 'left').select(b.TransactionDate, b.GroupByFld,a.Amount)
c.show()