我用镇的邮政编码制作了一张地图。填充率是一个案例与否的比率。但是某些邮政编码总数很少,因此离群值使地图失真。
有没有一种方法可以自动基于两个相邻区域的多边形和数据合并它们的n?
如果这不可能,那么如何合并我的sf / df行而不丢失ID?
我想最简单的就是将邮政编码设置为NA。
答案 0 :(得分:1)
取决于“自动”的含义。这是一个简单的算法。
repeat:
Find the region with the smallest population.
If that's more than your threshold, stop
Find that region's neighbours, pick one (at random, or smallest population).
merge that neighbour with that region
使用sf
程序包或sp
程序包和朋友(例如spdep
和rgeos
)都可以找到邻居和合并。
同样,这可以被视为使用基于邻接关系的距离度量的聚类算法。您可以进行完整的层次结构聚类,然后在某个点上剪切树,以使所有聚类都具有N>threshold
。
关于统计这是否是个好主意,这是另一个问题,它取决于您的目标是什么。如果您担心潜在风险是否大于0.5,并且由于从一个小样本(共3个)中偶然获得3个阳性结果和2个阳性结果而获得正值,则需要对数据进行建模并根据数据计算出超过0.5的概率。然后将其映射,这将考虑到样本量较小。