噪声数据集中的二维模式匹配

时间:2018-03-29 01:31:52

标签: algorithm pattern-matching cluster-analysis

我有一个RFID天线在两个人移动的2D x,y位置给出的数据集。一个人携带3个RFID标签,而另一个携带4个标签。两者都沿y轴移动如下。红色和青色是路径,两个人走路。

enter image description here

x,y刻度上的位置图如下所示。

enter image description here

理想情况下,橙色,黄色,蓝色和灰色线(RFID x,y数据点)应该在正水平线上,而下面的绿色,深蓝色和天蓝色线应该在负水平线上。

问题 尽管线条不是直的,但是出现了视觉图案,其可以在零线以上和零线下聚集在一起。我的问题是可以使用什么算法/方法来比较这些模式并将它们聚集在一起。 (理想情况下,答案应该是,上面4行是在一个集群中,3行以下是在另一个集群中。)

很难将它视为线性运动,因为人们可以以非线性方式行走。所以最合适的线条不起作用。值得庆幸的是,我们非常感谢任何建议或阴影。

1 个答案:

答案 0 :(得分:0)

您想要查看聚类时间序列(1d)或轨迹(2d)的方法。

两者的方法几乎相同。首先,您希望找到合适的距离度量(相异度度量),其次,您可以选择合适的聚类算法。

可能的距离指标

以下是您可以使用的一些示例距离,每个距离都有一些简短的参数:

  • 欧几里德距离:非常基本
  • 动态时间包裹(DTW):可以考虑轮班
  • Longuest Common Subsequence(LCSS):转移的帐户,可以处理异常值
  • 使用Real Penalty(EDP)编辑距离:转移帐户并可以处理异常值

例如,可以在this paper中找到更多详细信息。可以找到距离的实现here

可能的群集算法

您通常可以将任何距离度量与任何基于距离的聚类算法相结合。

<强>意见

查看您的数据我会尝试将DTW作为距离指标。如果你期望两个集群,那么k = 2的K-Means应该有效。否则,您可以尝试单链接聚类,它将为您提供类似于下图的内容。

DTW+SLC