如何在Spark中爆炸数据子集?

时间:2016-01-28 16:50:11

标签: apache-spark apache-spark-sql apache-zeppelin

我一直在尝试重复Zeppelin笔记本Magellan示例,但使用带有地理位置信息的资产(资产DF)并尝试将它们映射到邮政编码(邮政编码DF)。我从USGS获得了zip-code shapefile并将其放入Spark中。

以下是资产DF的样子。它由资产ID和地图上的点组成。

+---------+--------------------+
|    asset|               point|
+---------+--------------------+
|       10|Point(-96.7595319...|
|       11|Point(4.7115951, ...|

邮政编码DF是根据美国邮政编码的USGS shapefile构建的。这是我使用麦哲伦

val zipcodes = magellanContext.read.format("magellan").
load("magellan_us_states").
select($"polygon", $"metadata").
cache()

结果是邮政编码DF

+--------------------+--------------------+
|             polygon|            metadata|
+--------------------+--------------------+
|Polygon(5, Wrappe...|Map(YEAR_ADM ->  ...|
|Polygon(5, Wrappe...|Map(YEAR_ADM ->  ...|

然后我将两个DF连接在一起并进行查询

val joined = zipcodes.
join(assets).
where($"point" within $"polygon").
select($"asset", explode($"metadata").as(Seq("k", "v"))).
withColumnRenamed("v", "state").
drop("k").
cache()

结果如下:

+--------+--------------------+
|  asset#|               state|
+--------+--------------------+
|10      |Arizona             |
|10      |                  48|
|10      |                1903|
|10      |                  04|
|10      |              23.753|
|10      |  February          |
|10      |                1912|
|10      |              28.931|
|10      |                  14|
|11      |North Carolina      |
...

问题在于,当我爆炸元数据时,我只想要状态。我如何分解这些数据,以便我最终得到的表格看起来像这样 -

+--------+--------------------+
|  asset#|               state|
+--------+--------------------+
|10      |Arizona             |
|11      |North Carolina      |
|12      |Arizona             |
...

1 个答案:

答案 0 :(得分:2)

  

我如何分解这些数据,以便我最终只得到一个看起来像这样的表

只是不要使用mocha。相反,您只需explode感兴趣的领域:

select