我有一个类似于以下内容的数据框:
s=sc.parallelize([Row(items=[1], freq=3), Row(items=[2], freq=3), Row(items=[2, 1], freq=3), Row(items=[5], freq=2), Row(items=[5, 2], freq=2), Row(items=[5, 2, 1], freq=2), Row(items=[5, 1], freq=2), Row(items=[3], freq=1), Row(items=[3, 5], freq=1), Row(items=[3, 5, 2], freq=1), Row(items=[3, 5, 2, 1], freq=1), Row(items=[3, 5, 1], freq=1), Row(items=[3, 2], freq=1), Row(items=[3, 2, 1], freq=1), Row(items=[3, 1], freq=1)]).toDF()
我需要过滤掉项目列表的长度大于1的项目
这是我的新数据框,其外观类似于以下内容:
+----+------------+
|freq| items|
+----+------------+
| 3| [2, 1]|
| 2| [5, 2]|
| 2| [5, 2, 1]|
| 1| [3, 5, 2]|
....
len(item)小于1的行不应出现在新数据框中