如何在机器学习算法中处理定性数据

时间:2016-08-03 01:56:42

标签: machine-learning neural-network data-analysis

假设我试图使用神经网络来预测我的跑步需要多长时间。我从过去的运行中获得了大量数据。我计划运行多少英里,海拔(山丘),温度和天气的总变化:晴天,阴天,下雨或下雪。

我对如何处理最后一段数据感到困惑。对于其他一切,我可以在标准化后正常输入,但我不能为天气这样做。我的初期只是有4个额外的变量,每个类型的天气一个,输入根据它是什么来输入1或0。

这是一个很好的解决方案吗?我应该尝试其他方法吗?

1 个答案:

答案 0 :(得分:2)

您有一个分类变量,有四个级别。

对这些值进行编码的一种非常典型的方法是为每个值使用单独的变量。或者,更常见的是," n-1"编码,其中使用一个较少的标志(第四个值由all表示为0)。

n-1编码用于需要数字输入的技术 - 包括逻辑回归和神经网络。对于" n"的大值,那么它是一个糟糕的选择。问题是它创建了许多稀疏数据的输入;稀疏数据高度相关。更多的输入意味着网络中更多的自由度,使得网络更难训练。

在您的情况下,此特定输入只有四个值。将其拆分为三个变量可能是合理的。