如果我有一个列名列表,如果这些列的值大于零,我想过滤行,是否有类似我可以做的事情?
columns = ['colA','colB','colC','colD','colE','colF']
new_df = df.filter(any([df[c]>0 for c in columns]))
返回:
ValueError:无法将列转换为bool:请使用'&'对于'和', ' |'对于'或','〜'因为'不是'构建DataFrame时的布尔值 表达式
我想我可以只在一列上对这些列和过滤器求和(因为我没有负数。但是如果我有总和技巧就不会工作。无论如何我必须在不同于总和的另一个条件下过滤那些列,我怎么能做我想做的事情? 有什么想法吗?
答案 0 :(得分:2)
您可以改为使用or_
运算符:
from operator import or_
from functools import reduce
newdf = df.where(reduce(or_, (df[c] > 0 for c in df.columns)))
编辑:更多pythonista解决方案:
from pyspark.sql.functions import lit
def any_(*preds):
cond = lit(False)
for pred in preds:
cond = cond | pred
return cond
newdf = df.where(any_(*[df[c] > 0 for c in df.columns]))
编辑2:完整示例:
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.1.0-SNAPSHOT
/_/
Using Python version 3.5.1 (default, Dec 7 2015 11:16:01)
SparkSession available as 'spark'.
In [1]: from pyspark.sql.functions import lit
In [2]: %pas
%paste %pastebin
In [2]: %paste
def any_(*preds):
cond = lit(False)
for pred in preds:
cond = cond | pred
return cond
## -- End pasted text --
In [3]: df = sc.parallelize([(1, 2, 3), (-1, -2, -3), (1, -1, 0)]).toDF()
In [4]: df.where(any_(*[df[c] > 0 for c in df.columns])).show()
# +---+---+---+
# | _1| _2| _3|
# +---+---+---+
# | 1| 2| 3|
# | 1| -1| 0|
# +---+---+---+
In [5]: df[any_(*[df[c] > 0 for c in df.columns])].show()
# +---+---+---+
# | _1| _2| _3|
# +---+---+---+
# | 1| 2| 3|
# | 1| -1| 0|
# +---+---+---+
In [6]: df.show()
# +---+---+---+
# | _1| _2| _3|
# +---+---+---+
# | 1| 2| 3|
# | -1| -2| -3|
# | 1| -1| 0|
# +---+---+---+