假设我有两个时间戳系列事件:
T1 = ['2017-03-22 15:16:45', '2017-03-22 15:16:50', '2017-03-22 15:17:55', ...]
T2 = ['2017-03-22 15:16:47', '2017-03-22 15:16:52', '2017-03-22 15:17:57', ...]
每个时间戳表示发生的时间。
我们可以知道T2只是T1的时移,因此它们属于同一模式。相似度应为100%。
这里的相似度应该是50%。
我读过一篇论文,说我们可以应用LSH(Locality-Sensitive Hashing)来检测相似性。但我不知道如何详细地做到这一点。有什么想法吗?