我将使用多个变量进行回归分析。在我的数据中,我有 n = 23 功能和 m = 13000 训练示例。以下是我的培训数据(房屋面积与价格)的关系图:
情节上有13000个训练样例。你可以看到它是相对嘈杂的数据。我的问题是哪种回归算法在我的案例中更合适和合理。我的意思是使用简单线性回归或一些非线性回归算法更合乎逻辑。
为了更清楚,我提供了一些例子 以下是线性回归拟合的一些不相关的例子:
现在我为我的数据提供一些假设回归线: 我的数据的AFAIK原始线性回归将产生非常高的错误成本,因为它是非常嘈杂和分散的数据。另一方面,没有明显的非线性模式(例如正弦曲线)。在我的案例(房价数据)中使用什么回归算法更合理,以获得或多或少适当的房屋价格预测以及为什么这种算法(线性或非线性)更合理?
答案 0 :(得分:3)
使用非线性算法可以减少训练集上的误差,因为您将使用更适合您数据的曲线。但是,它可能导致overfitting。
为了避免这种情况,一件好事就是同时在训练数据和测试数据上绘制错误(成本函数)。为模型添加更多复杂性将减少训练数据的错误,但有一点会使测试数据更高。