根据行中的条件从数据框过滤

时间:2018-08-02 12:37:14

标签: python-3.x apache-spark dataframe pyspark apache-spark-sql

我有一个类似于以下内容的数据框:

s=sc.parallelize([Row(items=[1], freq=3), Row(items=[2], freq=3), Row(items=[2, 1], freq=3), Row(items=[5], freq=2), Row(items=[5, 2], freq=2), Row(items=[5, 2, 1], freq=2), Row(items=[5, 1], freq=2), Row(items=[3], freq=1), Row(items=[3, 5], freq=1), Row(items=[3, 5, 2], freq=1), Row(items=[3, 5, 2, 1], freq=1), Row(items=[3, 5, 1], freq=1), Row(items=[3, 2], freq=1), Row(items=[3, 2, 1], freq=1), Row(items=[3, 1], freq=1)]).toDF()

我需要过滤掉项目列表的长度大于1的项目

这是我的新数据框,其外观类似于以下内容:

+----+------------+
|freq|       items|
+----+------------+
|   3|      [2, 1]|
|   2|      [5, 2]|
|   2|   [5, 2, 1]|
|   1|   [3, 5, 2]|
....

len(item)小于1的行不应出现在新数据框中

0 个答案:

没有答案