实际上,有很多关于神经网络数据集训练大小的问题。但我的问题是神经网络数据集的总体大小。 我在这里找到了一个与用户知识建模主题相关的数据集https://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling。 这个数据集有403个实例。我想与ANN和ANFIS合作。 现在我的问题是这个数据集的大小是否会影响最终结果?我应该使用由更多实例组成的另一个数据集吗? 请注意我的问题不是培训,测试和验证数据的百分比。 提前谢谢
答案 0 :(得分:1)
要确认Flavio Ferrara的回复,您必须记住,模型中的自由参数数量与训练集的大小之间始终存在严格的关系。神经网络中的自由参数(权重和偏差值)的数量也与网络的体系结构有关。
随着自由参数的数量增加,您需要更多的数据来估计它们的真实值,如果您不能这样做,您的模型往往会过度拟合训练数据。 简而言之,回答您的训练集是否足以满足您的模型的问题,与您模型中的自由参数数量密切相关。需要估算更多参数,需要更大的训练集。另一方面,对于ANN,该架构有助于参数的数量。
希望有所帮助
答案 1 :(得分:0)
当然,数据集大小会影响任何机器学习算法的性能。
在统计视点下,使用较小的数据集,您可能无法捕获您尝试建模的分布的统计信息。 更“实用”的问题是您的模型可能会过度填充数据集,包括训练或测试/验证集。
这里还有另一个问题,那就是你是否使用“好”功能作为神经网络的输入。在这种情况下,好的意思是真正描述您感兴趣的类别的特征。
一种常见的方法是扩充您的数据集。您可以使用bootstrapping或对您的训练集应用一些随机变换,但后者主要用于图像。