我一遍又一遍地看着Andrew Ng videos,但我仍然不明白如何将渐变下降应用于我的问题。
他几乎专门处理高级概念解释,但我需要的是基础战术见解。
我的输入是以下形式的特征向量:
示例:
Document 1 = ["I", "am", "awesome"]
Document 2 = ["I", "am", "great", "great"]
字典是:
["I", "am", "awesome", "great"]
因此,作为矢量的文档看起来像:
Document 1 = [1, 1, 1, 0]
Document 2 = [1, 1, 0, 2]
根据我所见,梯度下降的算法如下所示:
我目前的理解是α是学习率,x (i)是一个特征,在Document 2
的上例中,x (3) = 2。
y (i)是标签,在我的情况下,我试图预测与特定特征向量相关联的Document
,例如y (0)< / sup>将与Document 1
,&amp; y (1)代表Document 2
。
可能有很多文件,比方说10,所以我可以有5个与y (0)相关的文件和5个与y (1)相关的文件,在这种情况下m = 10
。
我不太了解的第一件事是,Θ 0 &amp;的作用是什么? Θ<子> 1 子>
我认为它们是权重值,与感知器算法一样,我将它们应用于特征的值,以便哄骗该特征,无论其固有价值如何,输出标签的值,它是相关的。那是对的吗? 所以我一直将Θ值与感知器的重量值等同,这是否准确?
而且我不明白我们采取的是什么梯度。我真的不在乎听到关于在山上行走的另一个高级别的解释,实际上,对于我刚才详述的情况,我们采取什么样的梯度?两次后续迭代中的权重?功能的价值和它的真实标签?
感谢您的考虑,我们将非常感谢您的任何见解。
答案 0 :(得分:3)
他几乎专门处理高级概念解释,但我需要的是基础战术见解。
我发现他的视频是最实用和最基础的,特别是因为还有你可以看到的代码。你看过了吗?
我目前的理解是α是学习率,x(i)是一个特征,在上面的例子中,文件2,x(3)= 2.
正确关于α,关于x(i)
的错误:x(i)
是实例或示例。在您的示例中,您有:
Document 1 = [1, 1, 1, 0] = x(1)
Document 2 = [1, 1, 0, 2] = x(2)
功能例如为x(1, 2) = 1
。
y(i)是标签,在我的情况下,我试图预测与特定特征向量相关联的文档,因此例如y(0)将与文档1相关联,&amp; y(1)代表文件2。
正确。虽然我相信Andrew Ng的讲座使用基于1的索引,所以这将是y(1)
和y(2)
。
可能有很多文件,比方说10,所以我可以有5个与y(0)相关的文件和5个与y(1)相关的文件,在这种情况下m = 10。
这不是你应该如何看待它。每个文档都有自己的标签(y
值)。标签是否相同是另一个故事。文档1的标签为y(1)
,文档5
的标签为y(5)
。到目前为止y(1) == y(5)
是否无关紧要。
我不太了解的第一件事是,Θ0&amp;的作用是什么? Θ1?
Theta0
和Theta1
代表模型,这是您用来预测标签的内容:
prediction = Theta * input
= Theta0 * input(0) + Theta1 * input(1)
其中input(i)
是要素的值,而input(0)
通常定义为始终等于1
。
当然,由于您有多个功能,因此您需要两个以上的Theta
值。安德鲁·吴继续推广这个过程,以便在他演示你发布的公式之后的讲座中有更多的功能。
我认为它们是权重值,与感知器算法一样,我将它们应用于特征的值,以便哄骗该特征,无论其固有价值如何,输出标签的值,它是相关的。那是对的吗?所以我一直将Θ值与感知器的重量值等同,这是否准确?
是的,这是正确的。
而且我不明白我们采取的是什么梯度。我真的不在乎听到关于在山上行走的另一个高级别的解释,实际上,对于我刚才详述的情况,我们采取什么样的梯度?两次后续迭代中的权重?功能的价值和它的真实标签?
首先,你知道渐变是什么吗?它基本上是一个偏导数的数组,因此更容易解释我们正在采取什么样的偏导数和相对于什么。
我们正在考虑每个Theta
值的成本函数(在Andrew Ng的讲座中定义为差异平方)的偏导数。所有这些偏导数构成了梯度。
我真的不知道如何更实际地解释它。与您列出的最接近的是“特征的价值及其真实标签”,因为成本函数告诉我们模型有多好,并且它与每个特征的权重有关的偏导数告诉我们每个特征有多糟糕到目前为止重量。
您似乎再次混淆功能和样本。功能没有标签。样品或实例有标签。样本或实例包含功能。