我一直在尝试重复Zeppelin笔记本Magellan示例,但使用带有地理位置信息的资产(资产DF)并尝试将它们映射到邮政编码(邮政编码DF)。我从USGS获得了zip-code shapefile并将其放入Spark中。
以下是资产DF的样子。它由资产ID和地图上的点组成。
+---------+--------------------+
| asset| point|
+---------+--------------------+
| 10|Point(-96.7595319...|
| 11|Point(4.7115951, ...|
邮政编码DF是根据美国邮政编码的USGS shapefile构建的。这是我使用麦哲伦
val zipcodes = magellanContext.read.format("magellan").
load("magellan_us_states").
select($"polygon", $"metadata").
cache()
结果是邮政编码DF
+--------------------+--------------------+
| polygon| metadata|
+--------------------+--------------------+
|Polygon(5, Wrappe...|Map(YEAR_ADM -> ...|
|Polygon(5, Wrappe...|Map(YEAR_ADM -> ...|
然后我将两个DF连接在一起并进行查询
val joined = zipcodes.
join(assets).
where($"point" within $"polygon").
select($"asset", explode($"metadata").as(Seq("k", "v"))).
withColumnRenamed("v", "state").
drop("k").
cache()
结果如下:
+--------+--------------------+
| asset#| state|
+--------+--------------------+
|10 |Arizona |
|10 | 48|
|10 | 1903|
|10 | 04|
|10 | 23.753|
|10 | February |
|10 | 1912|
|10 | 28.931|
|10 | 14|
|11 |North Carolina |
...
问题在于,当我爆炸元数据时,我只想要状态。我如何分解这些数据,以便我最终得到的表格看起来像这样 -
+--------+--------------------+
| asset#| state|
+--------+--------------------+
|10 |Arizona |
|11 |North Carolina |
|12 |Arizona |
...
答案 0 :(得分:2)
我如何分解这些数据,以便我最终只得到一个看起来像这样的表
只是不要使用mocha
。相反,您只需explode
感兴趣的领域:
select