优化大熊猫的n对n比较

时间:2020-03-22 16:06:08

标签: python pandas cluster-computing nearest-neighbor

我正在使用pandas库,问题如下:

我有两个数据框:

  • Port_Dataframe,对于每个端口我都有经度,纬度,名称,... 该数据框只有唯一的值。
  • Ships_Dataframe,每一行都是具有特定时间(发送信息时),名称,坐标的飞船...该数据帧可能包含同一艘飞船的多行,这是因为飞船每隔发送其位置x 分钟,因此同一艘船可能在不同时间处于不同位置。

我想为船舶所在的每个港口查找。(同一艘船可以移动,因此可以位于不同的港口)

如果船舶之间的距离(经度和纬度)距离港口(经度和纬度)小于1公里,则该船舶位于港口内。

我不知道在检查列中的特定值时熊猫是如何工作的,熊猫会自动应用订单还是在搜索之前自行完成订单?

首先,我强调数据而不是算法本身。第一个解决方案:

1)对Ships_Dataframe进行排序,对纬度和经度后的行进行排序

2)如果 ship_latitude-port_latitude <“特定距离” ,则让熊猫检查每一行,如果经度也是如此,否则转到下一行。

我不确定该顺序是否会帮助计算时间,现在我无法使用大数据对其进行测试。

其他解决方案是使用算法,我会像最近的邻居一样寻找可能的集群,并找出每个集群附近是否有端口。

0 个答案:

没有答案