需要输入:路线难度的线性回归预测相当差

时间:2019-12-11 09:50:33

标签: python machine-learning scikit-learn neural-network linear-regression

数据https://1drv.ms/u/s!ArLDiUd-U5dtg1H6y1_0f_m5f2by?e=OmKeWp

我正在尝试预测路线的难度。一条路线由一系列点组成,每个点相距10米。每个点都有以下信息:

路径宽度
森林密度
坠落速度(坠落时身体会达到的速度)
坡度

对于每条路线,也都有一定的难度。 但是这些困难是由不同的人造成的,并且差异很大。因此,一个人给了一条路线4。但是另一个人可能给了这条路线2。因此数据中包含人为错误。

我到目前为止所做的事情:
我计算了每个路线的均值和标准差。因此,我采用了一条路线的所有点,并用它来计算这些统计值。我还添加了一条路线的长度(点数* 10)。 (差异=路线的难度。取值范围1-12)

enter image description here

然后,我将这些值放入线性回归模型中。事实证明这是一个不错的开始:

enter image description here

Mean Absolute Error: 1.239902061226418
Mean Squared Error: 2.3566221702532917
Root Mean Squared Error: 1.53512936596669

问题

但是,由于我缺乏机器学习知识,现在我不知道该怎么做。

我有一个使用神经网络的想法,只是提出了所有要点。最长的路线是5300点长,所以我只想说,每条路线5300点输入,并用这些路线的0值填充点,这还不够长。 诸如此类的任何信息或输入吗?

但是我也想通过使用上面显示的预测值(均值,std等)来获得良好的结果。那我该怎么做才能改善预测呢?

1 个答案:

答案 0 :(得分:0)

以下是开发最佳模型所需遵循的一些步骤:

  1. 检查数据中的异常值并标准化数据
  2. 检查独立和从属之间的相关强度 变量。
  3. 插入缺失值或创建单独的细分 处理数据列中的缺失值。
  4. 寻找变化的膨胀系数和公差 这样会提高数据质量并提高模型的准确性。