机器学习分类数据集设置

时间:2017-01-02 14:53:25

标签: python scikit-learn

如果这个问题违反了SO的问题指南,我感到非常抱歉,但是我被困住了,我无法在其他地方找到这类问题。假设我有一个包含三个实验数据的数据集,这些数据是在三种不同的条件下获得的(热,冷,舒适)。数据排列在pandas dataframe的三列中,由4列(time, cold, comfortable and hot)组成。 当我绘制数据时,我可以在视觉上看到三个实验的分离,但我想通过机器学习自动完成。 x轴表示time,y轴表示数据的magnitude。我已经阅读了有关不同机器学习classification techniques但我不了解如何设置数据以便我可以将其“提供”到classification算法中。也就是说,我的问题是:

  1. 这在程序上是否可行?
  2. 如何设置(排列我的数据)以便可以轻松地将其输入分类算法? From what I read so far,似乎算法工作,数据必须按照一定的顺序(例如,参见iris dataset数据标签很好。如何自定义算法以适应我的需要吗? 注意:理想情况下,我希望该程序在给定幅度值的情况下值分类为hot, comfortable or cold。在我的案例中,时间序列没有多大关系

1 个答案:

答案 0 :(得分:1)

当然这是可行的。

从原始帖子中可以确切地了解您的模型可用的变量/功能,但这里有一些一般性指导。所有这些机器学习问题,从分类到回归,都依赖于相同的核心假设,即您试图根据一堆输入预测某些结果。通常这种关系建模如下:y ~ X1 + X2 + X3 ...,其中y是您的结果("依赖")变量,X1X2等。是特征("解释"变量)。更简单地说,我们可以说使用我们的整个特征集矩阵X(即包含所有x变量的矩阵),我们可以使用各种ML技术预测一些结果变量y

因此,在您的情况下,您可以根据Cold尝试预测它是ComfortableHot还是time。这实际上是一个预测问题而不是ML问题,因为您有一个时间组件,它看起来是数据集中最重要(如果不是唯一)的功能之一。您可能希望查看一些更简单的时间序列预测方法(例如ARIMA)而不是ML算法,因为某些时间序列ML方法可能不适合初学者。

无论如何,我认为这应该让你开始。