我有一个带有一些(Lat,Long)坐标的大日志文件,以及一个包含多边形集合的数据库。多边形数据集现在适合内存,但未来可能不适合。
我想加入这两个数据集,以便知道每个日志坐标包含哪些多边形。
你知道使用Hadoop(或者如果有帮助的话)可以解决这个问题的好方法吗?
答案 0 :(得分:1)
为了获得此处的搜索结果,以下一项或多项内容非常有用:
(披露:我是Hadoop的GIS工具开发人员之一,并受雇于Esri。)
答案 1 :(得分:0)
乍一看,我建议这样做:
拥有使用MultipleInputs的地图(数据库多边形和日志文件中的分割)。 对于日志文件拆分中的每个点,它会检查该点是否属于多边形并输出该对(点,多边形)(如果有)。
reducer聚合此信息并输出:(点,它所属的多边形集)。
此解决方案不假设多边形的孔集合适合主存储器。
如果您确定这样做,我认为在启动作业之前查询数据库并将查询结果作为文件放在DistributedCache中会更有效。