应用错误收集

我认为，就你提出问题的方式而言，你还没有任何看似合理的想法。所以我会做出一个纯粹基于你想尝试的想法的答案。

我最初想过按字词相似性指标提出一些建议，但由于顺序在这里不一定重要，也许值得尝试更简单的开始。事实上，如果我在开发模型时发现自己在考虑复杂的事情，我会退后一步并尝试简化。它的编码速度更快，你也不会那么依赖于那些死路一条的东西。

那么，直方图怎么样？如果将时间和空间划分为更大的块，则可以在每个时间间隔内增加相关位置的值。您将获得一个人的位置的二维直方图。您可以使用基本的抗锯齿功能使直方图更具代表性。

从那里开始，直到比较直方图。你可以使用1D条实现真正的基本功能。你知道，比如对每个垂直和水平条带的相似性度量求和。线性直方图比较非常简单，只需几行代码就像C语言一样。足以证明概念。如果感觉你走在正确的轨道上，那就开始寻找更多棘手的想法......

我接下来要做的是使用一周中的几天和法定假日进一步对我的数据进行分层......甚至可以使用季节性变量进一步分层。我发现它对预测电力负荷非常有效，这与社会模式和天气一样重要。当您分离影响变量时，趋势会变得更加明显。

因此，在分层之后，你会得到一堆2D'切片'，你的签名就变成了一种3D体积。我认为将整个星球表示为网格并没有错。您的方块是否代表100米或1公里。很容易将它稀疏地存储起来，并删除任何超出一些标准偏差的东西。您可能只选择当天最重要的活动，最后选择一些地点。

然后，您可以专注于比较指标。也许某种基于图像的梯度或聚类分析。我确信那里有很多很棒的东西。这只是我所做的那些起点，没有做过任何研究。

如果你需要添加一些时间信息来介绍生活非常相似的人之间的分离，你可以在系统中建立一些滞后......比如“他们一小时前的位置”。在那时（或可能在此之前），您可能希望从我过度简化的平均方法中切换出一个人的日常活动，而是使用类似分类树的方法。使用MATLAB或R等工具开发这种东西非常容易和快速。