algorithm - 连续与离散人工神经网络

时间：2010-06-17 23:37:35

标签： algorithm artificial-intelligence neural-network

我意识到这可能是一个非常小众的问题，但有没有人有使用连续神经网络的经验？我特别感兴趣的是连续神经网络可能对你通常使用离散神经网络的东西有用。

为了清楚起见，我将清楚我的意思是连续神经网络，因为我认为它可以解释为不同的东西。我不意味着激活功能是连续的。相反，我提到了将隐藏层中的神经元数量增加到无限量的想法。

为了清楚起见，这里是您典型的谨慎NN的架构： alt text x是输入，g是隐藏图层的激活，v是隐藏图层的权重，w是输出的权重层，b是偏见，显然输出层具有线性激活（即无。）

此图描绘了离散NN与连续NN之间的差异： alt text 那就是你让隐藏神经元的数量变得无限，这样你的最终输出就是一个整体。实际上，这意味着不是计算确定性和，而是必须用正交逼近相应的积分。

显然，它是神经网络的常见误解，太多隐藏的神经元会产生过度拟合。

我的问题是具体的，鉴于离散和连续神经网络的这个定义，我想知道是否有人有使用后者的经验以及他们用它们做了什么样的事情。

答案 0 :(得分：2)

过去我曾使用连续NN进行过一些研究项目。使用双极双曲坦克进行激活，网络需要几百个浮点输入并输出大约一百个浮点值。

在这种特殊情况下，网络的目的是学习矿物火车的动力学方程。该网络在未来50秒内获得了列车的当前状态和预测的速度，车辆间动力学和其他列车行为。

这个特定项目的基本原理主要是关于绩效。这是针对嵌入式设备的目标，并且评估NN比解决传统的ODE（常微分方程）系统更加性能友好。

一般来说，连续的NN应该能够学习任何类型的功能。当使用确定性方法解决系统不可能/非常困难时，这尤其有用。与通常用于模式识别/分类目的的二进制网络相反。

鉴于它们的非确定性，任何类型的NN都是敏感的动物，选择正确的输入/网络架构可能有点像黑色艺术。

答案 1 :(得分：2)

我认为这只是理论家们试图证明没有函数超出NN架构的近似能力的兴趣，或者它可能是一种构造分段线性逼近（通过反向传播）的方法的命题。功能。如果是后者，我认为现有的方法更快，不易受局部最小值影响，并且比反向传播更不容易过度拟合。

我对NN的理解是连接和神经元包含它所训练的数据的压缩表示。关键是你有一个大型数据集需要比每个例子中突出的“一般课程”更多的内存。 NN应该是一个经济的容器，它将从这个巨大的语料库中提炼出这一普通教训。

如果您的NN有足够的隐藏单位来密集地对原始函数进行采样，这相当于说您的NN足够大以记住训练语料库（而不是从中推广）。将训练语料库视为给定分辨率下原始函数的样本。如果NN有足够的神经元来以比训练语料更高的分辨率对函数进行采样，那么系统就没有压力可以推广，因为它不受神经元数量的约束。

由于不会引入或不需要泛化，您也可以通过将所有训练数据存储在内存中并使用k-nearest邻居来记忆语料库，这将始终比任何NN更好地执行，即使NN的采样分辨率接近无穷大，也将始终与任何NN一样好。

答案 2 :(得分：2)

这个术语在机器学习文献中并未引起注意，这解释了所有的困惑。看起来这是一篇一篇文章，一篇有趣的论文，但它并没有真正导致任何东西，这可能意味着几件事;作者可能只是失去了兴趣。

我知道贝叶斯神经网络（具有相当多的隐藏单元，'连续神经网络'论文扩展到无数的案例）被Radford Neal成功使用（参见his thesis所有关于这些内容）以赢得NIPS 2003 Feature Selection Challenge使用贝叶斯神经网络。

答案 3 :(得分：1)

前馈神经网络总是“连续的” - 这是反向传播学习实际工作的唯一方式（你不能通过离散/步进函数反向传播，因为它在偏差阈值处是不可微分的）。

您可能对输入或目标输出进行离散（例如“一热”）编码，但所有计算都是连续值的。可以约束输出（即，使用softmax输出层使得输出总是总和为1，这在分类设置中是常见的）但是仍然是连续的。

如果您的意思是预测连续的，不受约束的目标的网络 - 想一想“正确答案”不是离散的任何预测问题，并且线性回归模型是不够的。例如，递归神经网络在各种时候都是各种金融预测应用的流行方法。

答案 4 :(得分：0)

不知道连续神经网络是通用逼近器（就紧密一致收敛的拓扑而言，在$ L ^ p $或$ C（\ mathbb {R}）$中的密度意义上，即： {3}}），但从本文的意义上讲，只有通用内插器： the universal approximation theorem