首先,我想对如果这不是问这个问题的最佳地点表示歉意。我有一个基于11种输入来预测葡萄酒质量的回归模型。目前,我的模型具有平均平均绝对误差和均方误差结果。 但是我使用两个具有完全相同的输入和参数的数据集。一个数据集有1600个条目,另一个数据集有5000个条目。我的问题是,对于较大的数据集,我的MAE和MSE值更差。训练集大小增加,我的模型是否应该没有更好的性能?
答案 0 :(得分:1)
随着训练集规模的增加,我的模型是否会有更好的表现?
简短答案:否
更长的答案:
通常,假设拥有更多数据可以为您提供更高的准确性,这是考虑它的正确方法。但是,更多的数据并不意味着您的模型会变得更容易。它可能变得更加复杂。例如,您正在使用线性回归,但在某个时间点上您意识到,随着数据的增加,回归似乎是一条指数曲线。
您还需要检查新数据(更多)是否遵循原始分发。我的方法是让您使用更多数据重新训练模型,然后考虑一个新问题。