PySpark过滤器从MongoDB填充的RDD

时间:2020-09-05 13:36:36

标签: apache-spark pyspark apache-spark-sql rdd

我,我已经从MongoDB上存储的集合中创建了一个RDD,现在我想应用一些过滤器,例如,过滤空行。

rdd = spark.read.format('mongo').option("inferSchema", "false").load().rdd
rdd.filter(lambda x: x['date'] != '')

记录包含条目的地方:

{ 
   _id = 04949,
   name = 'hello',
   date = '03/12/2009'
}     

但是它不起作用,我仍然可以找到一些日期为''

的记录

0 个答案:

没有答案