采矿加速度传感器数据的方法

时间:2015-03-29 19:48:01

标签: r classification data-mining prediction

我是数据挖掘的新手,对我为我的学院工作的其中一个项目提出了一些基本问题。

数据:我们决定从一组21个人(他们的不同活动,如步行,慢跑,跑步等)中挖掘加速度计和陀螺仪传感器读数,并提出分类解决方案。

我的问题是:

  1. 由于读数属于连续数据(频率为50 Hz的数据), 我应该如何采样数据。我会采用数据窗口吗?这条线上是否有任何标准程序。

  2. 我应该使用哪种模型,支持这种连续/顺序数据?隐马尔可夫模型是一种正确的方法吗?

  3. 一旦模型到达,它是否会再次从测试集中获取一个窗口(或系列)数据作为输入来预测活动?

2 个答案:

答案 0 :(得分:1)

您要问的是基本的数字信号处理问题,与数据挖掘没有太大关系。您应该阅读DSP的介绍,否则您将无法真正理解您正在做的事情,并且每个人都可能正确地批评您的结果。

存在于Biomed conference proceedings处理振动地理学,即基于多次振动测量的膝关节健康分类,因此您可能希望阅读现有文献。

  

由于读数属于连续数据(频率为50 Hz的数据),我应该如何采样数据。我会采用数据窗口吗?这条线上是否有任何标准程序。

是的,您可能必须选择部分数据。通常,您首先必须找到这些数据之间的时间对齐(通常最大相关性可帮助您找到),或者您需要将此类数据转换为时间不变的形式(傅里叶变换,功率谱密度等) )。

你需要了解奈奎斯特极限是什么,你需要对信号理论有充分的理解才能对数据做一些有用的事情。

  

我应该使用哪种模型,支持这种连续/顺序数据?隐马尔可夫模型是一种正确的方法吗?

隐马尔可夫对这类信号根本没有意义。找到一个好的分类师是一个艰难的工作,你需要经验和大量的反复试验来找到一个好的。没有单一的正确方法,除非您能够在数学上完整地描述您的信号,以证明存在最佳分类器。这需要对你的信号如何运作有很多了解。

  

一旦模型到达,它是否会再次从测试集中获取一个窗口(或系列)数据作为输入来预测活动?

这取决于你提出的模型。

编辑:免责声明:我在那里附属于该项目,所以我可能会有偏见。

答案 1 :(得分:0)

这个问题在科学文献中被称为“人类活动检测”,并且有许多论文提出了不同的方法。最近的摘要可以在Sensors 2017年第17卷第3期A Comprehensive Analysis on Wearable Acceleration Sensors in Human Activity Recognition中找到。

  

人类活动识别(HAR)从运动传感器收集数据开始。数据被划分到多个窗口中以应用特征提取,从而从原始信号中过滤出相关信息。然后,将提取的特征用作最终用于HAR模型的每个分类器的输入。

     

...我们探索了293个不同的分类器,包括决策树,判别分析,支持向量机,K最近邻,集成方法,朴素贝叶斯和神经网络。

     

...作为上述特征提取过程的结果,每个片段共获得176个特征,然后使用最小-最大归一化将其缩放为间隔[0,1],以便用于分类:< / p>      

平均值,最小值,最大值,中位数,标准偏差,偏度,峰度,信号功率,均方根,峰值强度...