根据值PySpark过滤嵌套数组

时间:2018-11-29 13:54:50

标签: apache-spark google-analytics pyspark

我正在尝试根据customDimensions在PySpark上过滤GA会话。数据就像

+--------------------+--------------------+                                     
|       fullVisitorId|                  cd|
+--------------------+--------------------+
| 5823179578207509663|[[1, app_tv], [36...|
| 5220700153870728639|[[107, live], [10...|
|16421406313456036559|[[1, app_tv], [36...|
|18135892068782985696|[[1, app_tv], [36...|
| 5865612025708664451|[[1, app_tv], [36...|
| 8103574485485735385|[[1, web], [36, d...|
| 6603732532553270294|[[1, web], [36, m...|
|   70498423600813735|[[1, web], [36, d...|
| 5017675391641460547|[[1, web], [36, d...|
+--------------------+--------------------+

使用GA模式,cd(customDimensions)列具有一个数组,该数组包含多个索引值对的元组。

我如何有效地选择具有例如索引为107且值为= live的条目的fullVisitorId,例如示例中的第二个条目

0 个答案:

没有答案