PySpark RDD过滤器,“not in”表示多个值

时间:2017-10-24 05:54:12

标签: pyspark rdd

我的RDD如下所示:

myRDD:
[[u'16/12/2006', u'17:24:00'], 
[u'16/12/2006', u'?'],
[u'16/12/2006', u'']]

我想用'?'排除记录或者在里面。 以下代码适用于逐个过滤,但有没有办法将项目与'?'组合和过滤并且''一气呵成地回过头来:

[u'16/12/2006', u'17:24:00']

以下内容一次仅适用于一个项目,如何扩展到多个项目

myRDD.filter(lambda x: '?' not in x)

想要如何写作的帮助:

myRDD.filter(lambda x: '?' not in x && '' not in x)

1 个答案:

答案 0 :(得分:3)

试试这个,

myRDD.filter(lambda x: ('?' not in x) & ('' not in x))