作为我们研究小组的一部分,我们正在收集大量的位置数据。我们的数据基本上看起来像(用户ID,纬度/经度坐标,时间戳)。还涉及其他元数据,但这与此无关。 我们每周收集大约2-3百万条记录,并期望在适当的时候收集大约一年的数据。
我真的很喜欢有关存储和处理这些数据的技巧。我们希望能够回答类似的问题:
(1)对于指定位置,在指定时间段内谁在该位置附近(在指定距离内)?
(2)哪些地点彼此靠近?
这是一般的想法。我们不需要实时响应,但什么是好的数据库(或其他数据存储软件)?我遇到过人们谈论k-d树,这种规模是否有效?我需要什么样的硬件?我希望能够指出一般策略。我们如何存储这些数据?将它们全部存储在数据库中甚至是否有意义?哪些数据/软件/软件包非常适合距离/半径计算?
我们最熟悉Python / Linux,宁愿远离Java而更喜欢开源/免费软件。我们对这一切都不熟悉,指向书籍和论文的指针也很有用。所有建议都非常有用。