指向Polygon Hadoop实现

时间:2012-07-08 00:46:39

标签: hadoop geometry geospatial computational-geometry apache-pig

我有一个带有一些(Lat,Long)坐标的大日志文件,以及一个包含多边形集合的数据库。多边形数据集现在适合内存,但未来可能不适合。

我想加入这两个数据集,以便知道每个日志坐标包含哪些多边形。

你知道使用Hadoop(或者如果有帮助的话)可以解决这个问题的好方法吗?

2 个答案:

答案 0 :(得分:1)

为了获得此处的搜索结果,以下一项或多项内容非常有用:

GIS Tools for Hadoop

SpatialHadoop

HadoopGIS

(披露:我是Hadoop的GIS工具开发人员之一,并受雇于Esri。)

答案 1 :(得分:0)

乍一看,我建议这样做:

拥有使用MultipleInputs的地图(数据库多边形和日志文件中的分割)。 对于日志文件拆分中的每个点,它会检​​查该点是否属于多边形并输出该对(点,多边形)(如果有)。

reducer聚合此信息并输出:(点,它所属的多边形集)。

此解决方案不假设多边形的孔集合适合主存储器。

如果您确定这样做,我认为在启动作业之前查询数据库并将查询结果作为文件放在DistributedCache中会更有效。