python - 机器学习分类数据集设置

如果这个问题违反了SO的问题指南，我感到非常抱歉，但是我被困住了，我无法在其他地方找到这类问题。假设我有一个包含三个实验数据的数据集，这些数据是在三种不同的条件下获得的（热，冷，舒适）。数据排列在pandas dataframe的三列中，由4列（time, cold, comfortable and hot）组成。当我绘制数据时，我可以在视觉上看到三个实验的分离，但我想通过机器学习自动完成。 x轴表示time，y轴表示数据的magnitude。我已经阅读了有关不同机器学习classification techniques但我不了解如何设置数据以便我可以将其“提供”到classification算法中。也就是说，我的问题是：

这在程序上是否可行？
如何设置（排列我的数据）以便可以轻松地将其输入分类算法？ From what I read so far，似乎算法工作，数据必须按照一定的顺序（例如，参见iris dataset数据标签很好。如何自定义算法以适应我的需要吗？ 注意：理想情况下，我希望该程序在给定幅度值的情况下将值分类为hot, comfortable or cold。在我的案例中，时间序列没有多大关系

当然这是可行的。

从原始帖子中可以确切地了解您的模型可用的变量/功能，但这里有一些一般性指导。所有这些机器学习问题，从分类到回归，都依赖于相同的核心假设，即您试图根据一堆输入预测某些结果。通常这种关系建模如下：y ~ X1 + X2 + X3 ...，其中y是您的结果（＆＃34;依赖＆＃34;）变量，X1，X2等。是特征（＆＃34;解释＆＃34;变量）。更简单地说，我们可以说使用我们的整个特征集矩阵X（即包含所有x变量的矩阵），我们可以使用各种ML技术预测一些结果变量y。

因此，在您的情况下，您可以根据Cold尝试预测它是Comfortable，Hot还是time。这实际上是一个预测问题而不是ML问题，因为您有一个时间组件，它看起来是数据集中最重要（如果不是唯一）的功能之一。您可能希望查看一些更简单的时间序列预测方法（例如ARIMA）而不是ML算法，因为某些时间序列ML方法可能不适合初学者。

无论如何，我认为这应该让你开始。

机器学习分类数据集设置

1 个答案: