多输出神经网络

时间:2011-12-08 23:28:52

标签: artificial-intelligence machine-learning neural-network probability

我已经在python中构建了我的第一个神经网络,并且我一直在玩一些数据集;到目前为止一切顺利!

我有一个关于具有多种结果的事件建模的快速问题: -

假设我希望训练一个网络,告诉我每个跑步者赢得100米冲刺的概率。我会向网络提供有关每个跑步者的所有相关数据,输出数量将等于比赛中的跑步者数量。

我的问题是,使用sigmoid函数,我如何确保输出的总和等于1.0?网络会自然地学会这样做,还是我必须以某种方式明确地实现这一点?如果是这样,我将如何做到这一点?

非常感谢。

3 个答案:

答案 0 :(得分:17)

神经网络的输出接近 1.我认为它实际上不会达到1。

您实际上不需要查看哪个输出等于1.一旦您将网络训练到特定的错误级别,当您显示输入时,只需稍后查看输出中的最大输出。例如,假设您的输出图层显示以下输出:[0.0001, 0.00023, 0.0041, 0.99999412, 0.0012, 0.0002],然后赢得比赛的跑步者是4号跑步者。

所以是的,您的网络将“学习”生成1,但它不会完全是1.这就是您在一定错误率内训练的原因。我最近创建了一个神经网络来识别手写数字,这就是我使用的方法。在我的输出图层中,我有一个包含10个组件的向量。第一个组件代表0,最后一个组件代表9.所以当我向网络提出一个4时,我希望输出向量看起来像[0, 0, 0, 0, 1, 0, 0, 0, 0, 0]。当然,这不是我得到的,但它是我训练网络提供的。因此,为了找到它是哪个数字,我只需检查哪个组件的输出或分数最高。

现在在你的第二个问题中,我相信你会问 网络如何学会提供正确的答案?为此,您需要为网络提供一些训练数据并对其进行训练,直到输出低于某个误差阈值。所以你需要的是一组包含输入正确输出的数据。最初你的神经网络将设置随机权重(有一些算法可以帮助你选择更好的权重,以最大限度地减少训练时间,但这有点更高级)。接下来,您需要一种方法来告诉神经网络从提供的数据中学习。所以基本上你将数据提供给神经网络并提供输出,这很可能是错误的。然后将该数据与预期(正确)输出进行比较,并告诉神经网络更新其权重,使其更接近正确的答案。您一遍又一遍地执行此操作,直到错误低于某个阈值。

最简单的方法是实现随机反向传播算法。在此算法中,您可以计算神经网络的实际输出与预期输出之间的误差。然后,您将输出图层中的错误一直反向传播到隐藏图层的权重,随时调整权重。然后重复此过程,直到您计算的错误低于某个阈值。因此,在每一步中,您都会越来越接近解决方案。

您可以使用here所述的算法。有大量的数学,所以要做好准备!如果您想查看此算法实现的示例,您可以查看我在github上的这个Java代码。该代码也使用动量和简单形式的模拟退火,但标准的反向传播算法应该很容易辨别。关于backpropagation的维基百科文章对Python中反向传播算法的实现有一个link

你可能不会马上理解算法;期望花一些时间来理解它并完成一些数学计算。我正在编码时,我用铅笔和纸坐下来,这就是我最终了解发生了什么。

以下是一些可以帮助您更好地理解反向传播的资源:

如果您想要更多资源,还可以查看我的回答here

答案 1 :(得分:2)

基本上你需要一个多个实数的函数,将这些实数转换成概率(每个在0到1之间,总和为1)。您可以通过对网络输出进行后期处理来轻松完成此任务。

您的网络为您提供实数r1,r2,...,rn随着每位选手赢得比赛的概率而增加。

然后计算exp(r1),exp(r2),...,并将它们相加为ers = exp(r1)+ exp(r2)+ ... + exp(rn)。然后第一个赛车获胜的概率是exp(r1)/ ers。

这是Boltzman分布的一种用法。 http://en.wikipedia.org/wiki/Boltzmann_distribution

答案 2 :(得分:1)

您的网络应该解决这个问题并最终自然地学习。

为了让网络更快地学习,首先要考虑的是:

  • 添加一个名为'sum'的额外输出(对所有其他输出神经元求和) - 如果您希望所有输出神经元都在一个单独的层中,只需添加一层输出,首先{{1}输出只是连接到前一层中的相应神经元,最后numRunners - 神经元连接到前一层的所有神经元,并将权重固定为1)

  • 训练集将包含每个跑步者的0-1个矢量(确实没有运行),“预期”结果将是0-1矢量numRunners+1第一个标记跑步者赢得了比赛,最后1分标志着“概率”的“总和”

  • 对于未知的比赛,网络将尝试预测哪个选手将获胜。由于输出具有连续的值(或多或少:D),因此可以将其视为“跑步者赢得比赛的网络的确定性” - 这就是您正在寻找的

即使没有额外的00..00001000..01神经元,这也是训练数据排列方式的粗略描述。