Question

我正在尝试根据一些规则从pyspark数据框中选择一些值。在pyspark获得例外。

from pyspark.sql import functions as F

df.select(df.card_key,F.when((df.tran_sponsor = 'GAMES') &  (df.location_code = '9145'),'ENTERTAINMENT').when((df.tran_sponsor = 'XYZ') &  (df.location_code = '123'),'eBOOKS').when((df.tran_sponsor = 'XYZ') &  (df.l_code.isin(['123', '234', '345', '456', '567', '678', '789', '7878', '67', '456']) ),'FINANCE').otherwise(df.tran_sponsor)).show()

我遇到以下异常。你能提一些建议吗？

文件＆＃34;＆＃34;，第1行 df.select（df.card_key，F.when（（df.tran_sponsor =＆＃39; GAMES＆＃39;）＆amp;（df.location_code =＆＃39; 9145＆＃39;），＆＃39; ENTERTAINMENT＆＃39; ;）。（（df.tran_sponsor =＆＃39; XYZ＆＃39;）＆amp;（df.location_code =＆＃39; 123＆＃39;），＆＃39; eBOOKS＆＃39;）。when（（df .tran_sponsor =＆＃39; XYZ＆＃39;）＆amp;（df.l_code.isin（[＆＃39; 6001＆＃39;，＆＃39; 6002＆＃39;，＆＃39; 6003＆＃39;，＆＃39; 6004＆＃39;，＆＃39; 6005＆＃39;，＆＃39; 6006＆＃39;，＆＃39; 6007＆＃39;，＆＃39; 6008＆＃39;，＆＃39; 6009＆＃ 39;，＆＃39; 6010＆＃39;，＆＃39; 6011＆＃39;，＆＃39; 6012＆＃39;，＆＃39; 6013＆＃39;，＆＃39; 6014＆＃39;]））＆＃39;作者＆＃39）否则（df.tran_sponsor））示出了（）。 ^ SyntaxError：语法无效

Answer 1

嗯，我刚想通了，问题在于赋值算子没有问题：（

df.select(df.card_key,F.when((df.tran_sponsor == 'GAMES') &  (df.location_code == '9145'),'ENTERTAINMENT').when((df.tran_sponsor == 'XYZ') &  (df.location_code == '123'),'eBOOKS').when((df.tran_sponsor == 'XYZ') &  (df.l_code.isin(['123', '234', '345', '456', '567', '678', '789', '7878', '67', '456']) ),'FINANCE').otherwise(df.tran_sponsor)).show()

效果很好，感谢有人在努力研究它。

过滤pyspark数据帧

1 个答案: