分类器预测发生的活动

时间:2018-10-24 08:29:06

标签: javascript tensorflow machine-learning artificial-intelligence

我在这里有多个来自Kaggle的数据集。有多个csv文件,每个csv文件都是专门为坐,站,走,跑等制作的。数据来自诸如加速度计和陀螺仪之类的传感器。数据集中的值位于x,y和z等轴上。

样本数据

enter image description here

这是慢跑的示例数据集。现在,我需要在程序中进行分类,以便程序可以检测自身数据是否是慢跑,坐着,站立等。我想将所有数据集混合到一个csv文件中,然后将其上传到我的webapge中,然后我希望javascript代码开始检测特定的行是否是坐着,站着,慢跑等。我不需要任何代码帮助,但是我只需要一些解释或一种开始对其进行编码的方法。我如何开始制作此类分类器?我知道这是一个广泛的问题,但我想我已经尽力以最好的方式来解释自己。一旦我的程序检测到具有特定活动的每一行,它将分别计算所有活动,然后以表格形式在网页中显示。

1 个答案:

答案 0 :(得分:0)

为了正确回答您的问题,了解哪个是您对机器学习的理解和经验会非常有帮助。

如果您是初学者,我建议尝试运行并了解一些可以在网上轻松找到的教程。

如果您需要了解哪种方法是机器学习开发的“标准”方法,我将尝试为您提供大致的流程概念。

您可以通过以下主要步骤总结该过程:

数据预处理->数据拆分->功能选择->模型训练->验证->部署

数据预处理旨在清理和格式化数据:删除NA值,有关分类变量的决策,离群值分析等。...这是一个复杂的步骤,具体取决于应用程序。在您的情况下,我将开始检查不同数据集中的数据是否同质,即功能在csv中具有相同的含义,并且相应的功能遵循相同的分布。尽管应在csv的说明中解释每个功能的含义,但是可以很容易地完成分布的检查,并绘制每个功能和csv的箱形图。如果同一功能在不同csv文件中的分布不重叠,则应进一步研究该问题。

设计良好模型的重要一步是数据分割。您应该将数据划分为训练/验证集(训练/验证/测试以获得更全面的方法)。此步骤使您可以在训练集上训练模型,并在验证集上测试模型,以计算模型的无偏性能。我建议在这里熟悉以下概念:交叉验证,分层交叉验证,用于超参数调整的嵌套交叉验证,过度拟合,偏差...。模型的验证将使您对在看不见的数据上的预期性能。如果您正在考虑使用多个模型,则可以使用验证结果来选择“最佳”模型。我在这里建议使用置信区间进行比较,或者在可能的情况下进行显着性检验(例如t检验,方差分析等)。在部署之前,将对模型进行所有可用数据的训练。

模型的选择取决于您使用的数据:样本数量,特征数量,变量类型(数字,类别),....

我不是javascript方面的专家,但我(只是感觉)认为python和R是开发机器学习应用程序的更常见选择。两者都有专门为该任务开发的库,您可以找到很多材料和教程。

我认为我可以更具体一些。

我希望对您有帮助