标签: python sql dataframe pyspark
我在PySpark数据框中有大量列,比如说200.我想选择除列3-4之外的所有列。如何选择此列而不必手动键入要选择的所有列的名称?
答案 0 :(得分:2)
最后,我决定满足以下条件:
Drop:
df.drop('column_1', 'column_2', 'column_3')
Select:
df.select([c for c in df.columns if c not in {'column_1', 'column_2', 'column_3'}])
答案 1 :(得分:0)
第二步有一个更简单的方法,它允许选择所有列:
df.select(df['*'])
或者,select 也可以通过应用 alias 来使用:
select
alias
df.alias("a").select("a.*")