数据集不建议使用神经网络

时间:2016-01-09 21:23:43

标签: machine-learning dataset neural-network data-quality

我的问题基本上是:在学习问题中,是否存在不建议使用神经网络的数据集?这些数据集的一些流行特征是什么?

我要问的原因是: 在一些文章中,证明神经网络可以学习任何功能。但是所有数据集都代表一个函数吗?如果他们没有资格这样做;不合格数据集的属性是什么?

在我的研究中,我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到以下模式

    
Input1  Input2 Target
0.8     0.6    0.3
0.8     0.6    0.3
0.8     0.6    0.0
0.8     0.6    0.1

作为一个人,我不能通过观察输入来预测目标,我希望神经网络也不能准确预测。因此可能会针对这种情况建议其他方法。

2 个答案:

答案 0 :(得分:1)

只要你不能说真正的价值是什么,就没有明确的答案。或者更具体地说,有一个真正的价值。

但是,有两种情况很常见,可能导致此类数据。

1。)噪音输出让你说你观察到的数据来自一个功能

 f(x,y) = g(x,y) + N(0,0.1)

g(x,y)给出一个唯一值,但是在函数中添加了正常的分布式噪声。如果你有足够的训练日期,你的NN将慢慢收敛到正确的值。即使噪音不正常,也可以调整分布式训练

2。)没有唯一的真实值还有另一种情况可以想象。没有独特的真实价值。鉴于我上面的训练数据是人类会学到的。在0.5个案例中f(0.8,0.6)=0.3的结果等等。神经网络也能够学习这些功能。

什么是神经网络无法学习。机器学习中有一些可能无法学习的假设。例如,如果您的数据不是独立的,那将是一个大问题。因此,如果您的训练数据中的目标与输入无关,则模式0.3,0.3,0.0,0.1,0.3,0.3,0.0,0.1,....学习将很困难。

一般来说,您需要能够制定您想要学习的内容。这通常是根据目标函数来完成的,否则,你永远无法确定网络学到了什么(c.f.,没有免费午餐定理

答案 1 :(得分:1)

在算法实现和调优之前,首先应该看看data quality。有一篇非常好的参考文献(其中之一),我希望它有所帮助

Goodchild, Michael F., and Keith C. Clarke. "Data quality in massive data sets." Handbook of massive data sets. Springer US, 2002. 643-659.