使用Regex过滤PySpark数据帧

时间:2017-09-15 17:25:45

标签: pyspark

我有一个包含3k-4k列的Spark数据帧,我想删除名称符合某些变量标准的列。其中ColumnName类似于' foo '。

1 个答案:

答案 0 :(得分:3)

要获取使用df.columns的列名,drop()支持在一次调用中删除多列。下面的代码使用这两个代码并完成您的需要:

condition = lambda col: 'foo' in col
new_df = df.drop(*filter(condition, df.columns))