旧金山社区的X,Y坐标特征工程

时间:2016-04-29 11:17:47

标签: r prediction

我正在参加一场首发Kaggle比赛(旧金山的犯罪),其中我想使用一系列预测变量来预测犯罪类别,包括犯罪的X和Y坐标。当我怀疑坐标的预测能力时,我想把这些变量转换成与犯罪类别更相关的东西。

所以我想,如果我在旧金山附近发生了犯罪,那么它将比犯罪的实际坐标更具信息性。我可以在网上找到这些社区但当然我不能使用每个邻居的边界来对相应的犯罪进行分类,因为它们的形状不是矩形或类似的东西。

有没有人知道如何解决这个问题?

谢谢你们

那个有趣的AntoniosK,它接近我想要完成的事情。问题是信息"东南,距市中心2公里#34;可以导致多个社区。 enter image description here 我仍然认为城市在社区中的分割是有价值的,因为它们之间的社会经济和结构差异(每个城市的社区都是这样分开的原因,对吗?)可能导致更高的概率某种类别的犯罪和较低的犯罪。

那就是说,你的想法让我想到使用东南等地图,然后使用x轴的段(指向市中心)的角度将点映射到适当的邻域。我现在就在。感谢

1 个答案:

答案 0 :(得分:0)

在问题解决了一段时间之后,我发现我想要执行的程序名为"反向地理编码"。事实证明,有一些api可以解决这个问题。根据我的观点,最好的是ggmap包中包含的revgeocode()函数(google' s版)。这个虽然每天有一个查询限制(2500个查询),除非您支付额外费用。

我转向的那个是geonames包和GNneighbourhood函数,它将坐标转换为邻居。这是免费的,虽然我遇到了一些错误(请记住,这只是美国和加拿大的城市)

revgeocode function-ggmap package

Gnneighbourhood-geonames package