Question

我的问题基本上是：在学习问题中，是否存在不建议使用神经网络的数据集？这些数据集的一些流行特征是什么？

我要问的原因是：在一些文章中，证明神经网络可以学习任何功能。但是所有数据集都代表一个函数吗？如果他们没有资格这样做;不合格数据集的属性是什么？

在我的研究中，我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到以下模式

    
Input1  Input2 Target
0.8     0.6    0.3
0.8     0.6    0.3
0.8     0.6    0.0
0.8     0.6    0.1

作为一个人，我不能通过观察输入来预测目标，我希望神经网络也不能准确预测。因此可能会针对这种情况建议其他方法。

Answer 1

只要你不能说真正的价值是什么，就没有明确的答案。或者更具体地说，有一个真正的价值。

但是，有两种情况很常见，可能导致此类数据。

1。）噪音输出让你说你观察到的数据来自一个功能

 f(x,y) = g(x,y) + N(0,0.1)

g(x,y)给出一个唯一值，但是在函数中添加了正常的分布式噪声。如果你有足够的训练日期，你的NN将慢慢收敛到正确的值。即使噪音不正常，也可以调整分布式训练

2。）没有唯一的真实值还有另一种情况可以想象。没有独特的真实价值。鉴于我上面的训练数据是人类会学到的。在0.5个案例中f(0.8,0.6)=0.3的结果等等。神经网络也能够学习这些功能。

什么是神经网络无法学习。机器学习中有一些可能无法学习的假设。例如，如果您的数据不是独立的，那将是一个大问题。因此，如果您的训练数据中的目标与输入无关，则模式0.3,0.3,0.0,0.1,0.3,0.3,0.0,0.1,....学习将很困难。

一般来说，您需要能够制定您想要学习的内容。这通常是根据目标函数来完成的，否则，你永远无法确定网络学到了什么（c.f.，没有免费午餐定理）

Answer 2

在算法实现和调优之前，首先应该看看data quality。有一篇非常好的参考文献（其中之一），我希望它有所帮助