我正在尝试根据与混合城市郊区环境中其他功能的距离来建立地理空间特征的预测模型,例如办公大楼位于距离最近的道路,住宅区,和购物区。我有一组特征位置,但是这些区域在某些区域内没有均匀分布,它们非常稀疏,而其他区域非常密集。使用决策树来预测某个地方学校的存在与否,我需要一套正面和负面的训练集。我该如何创建此类案例的样本?
答案 0 :(得分:1)
您需要以下格式的数据:
nearestRoad
,housingEstate
,shoppingDistrict
,...,schoolPresent
nearestRoad
将是realNumber
,housingEstate
和shoppingDistrict
将是二进制变量(我猜)。你看看谷歌地图吗?他们是否为您提供了一个API,可以让您查询特定(纬度,长度)坐标?如果他们这样做,那么您可以按如下方式生成数据集:
假设学校位于坐标(x,y)
处。然后执行半径为5英里的gridsearch
以获得每个要素的精确值。因此,例如,您可能在坐标(x+1, y+2)
处找到了一个购物区,因此该特定实例的该特征等于1。
这可能很乏味但如果存在这样的API,它肯定是可能的。