我有一个训练数据集,包含大约2,000,000个数据点。我的问题是回归问题。我的神经网络由400个输入神经元,200、100和25个神经元的隐藏层以及一个输出神经元组成。除了输出之外,我用于所有层的激活函数是relu,输出层使用线性激活。由于我对百分比误差感兴趣,因此我将平均百分比误差用作损失函数。我的基准设置是批量大小为128和300个纪元,我正在对不同的参数进行灵敏度分析。
介绍我的设置后,这是我目前所处的情况。我想看看数据大小对准确性的影响。
1)我用随机选择的一半测试数据训练了我的人工神经网络;平均误差为〜2.6%,最大误差为〜110%(均使用与训练数据不同的测试数据进行检查)
2)我使用随机选择的3/4的测试数据训练了我的ANN;平均误差为〜2.0%,最大误差为〜60%(均使用与训练数据不同的测试数据进行检查)
3)我使用所有测试数据训练了我的人工神经网络;平均误差为〜3.0%,最大误差为〜100%(均使用与训练数据不同的测试数据进行检查)
我的问题是: