我的问题基本上是:在学习问题中,是否存在不建议使用神经网络的数据集?这些数据集的一些流行特征是什么?
我要问的原因是: 在一些文章中,证明神经网络可以学习任何功能。但是所有数据集都代表一个函数吗?如果他们没有资格这样做;不合格数据集的属性是什么?
在我的研究中,我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到以下模式
Input1 Input2 Target 0.8 0.6 0.3 0.8 0.6 0.3 0.8 0.6 0.0 0.8 0.6 0.1
作为一个人,我不能通过观察输入来预测目标,我希望神经网络也不能准确预测。因此可能会针对这种情况建议其他方法。
答案 0 :(得分:1)
只要你不能说真正的价值是什么,就没有明确的答案。或者更具体地说,有一个真正的价值。
但是,有两种情况很常见,可能导致此类数据。
1。)噪音输出让你说你观察到的数据来自一个功能
f(x,y) = g(x,y) + N(0,0.1)
g(x,y)
给出一个唯一值,但是在函数中添加了正常的分布式噪声。如果你有足够的训练日期,你的NN将慢慢收敛到正确的值。即使噪音不正常,也可以调整分布式训练
2。)没有唯一的真实值还有另一种情况可以想象。没有独特的真实价值。鉴于我上面的训练数据是人类会学到的。在0.5
个案例中f(0.8,0.6)=0.3
的结果等等。神经网络也能够学习这些功能。
什么是神经网络无法学习。机器学习中有一些可能无法学习的假设。例如,如果您的数据不是独立的,那将是一个大问题。因此,如果您的训练数据中的目标与输入无关,则模式0.3,0.3,0.0,0.1,0.3,0.3,0.0,0.1,....
学习将很困难。
一般来说,您需要能够制定您想要学习的内容。这通常是根据目标函数来完成的,否则,你永远无法确定网络学到了什么(c.f.,没有免费午餐定理)
答案 1 :(得分:1)
在算法实现和调优之前,首先应该看看data quality
。有一篇非常好的参考文献(其中之一),我希望它有所帮助