neural-network - 这是神经网络数据集的总体大小？

这是神经网络数据集的总体大小？

时间：2015-10-07 19:32:04

标签： neural-network

实际上，有很多关于神经网络数据集训练大小的问题。但我的问题是神经网络数据集的总体大小。我在这里找到了一个与用户知识建模主题相关的数据集https://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling。这个数据集有403个实例。我想与ANN和ANFIS合作。现在我的问题是这个数据集的大小是否会影响最终结果？我应该使用由更多实例组成的另一个数据集吗？请注意我的问题不是培训，测试和验证数据的百分比。提前谢谢

2 个答案:

答案 0 :(得分：1)

要确认Flavio Ferrara的回复，您必须记住，模型中的自由参数数量与训练集的大小之间始终存在严格的关系。神经网络中的自由参数（权重和偏差值）的数量也与网络的体系结构有关。

随着自由参数的数量增加，您需要更多的数据来估计它们的真实值，如果您不能这样做，您的模型往往会过度拟合训练数据。简而言之，回答您的训练集是否足以满足您的模型的问题，与您模型中的自由参数数量密切相关。需要估算更多参数，需要更大的训练集。另一方面，对于ANN，该架构有助于参数的数量。

希望有所帮助

答案 1 :(得分：0)

当然，数据集大小会影响任何机器学习算法的性能。

在统计视点下，使用较小的数据集，您可能无法捕获您尝试建模的分布的统计信息。更“实用”的问题是您的模型可能会过度填充数据集，包括训练或测试/验证集。

这里还有另一个问题，那就是你是否使用“好”功能作为神经网络的输入。在这种情况下，好的意思是真正描述您感兴趣的类别的特征。

一种常见的方法是扩充您的数据集。您可以使用bootstrapping或对您的训练集应用一些随机变换，但后者主要用于图像。