这个NLP符号是什么意思?

时间:2014-04-28 13:00:43

标签: machine-learning nlp

我正在学习NLP尝试在语料库上进行关系提取。我找到了these张幻灯片,并试图解析高维特征向量的符号(如下所示)。

enter image description here

,其中

enter image description here

如何将最顶层的等式转换为英语句子?对于每个输入文本单元,x;对于每个可能的特征,y - 特征x是-a y可以用特征向量表示?我习惯于看到笛卡尔积的符号,我习惯于看到函数符号,我习惯于看到set builder符号。但是在这条线上有太多不熟悉的东西让我理解它的内容。结肠是什么意思?箭头是什么意思?

2 个答案:

答案 0 :(得分:2)

这意味着f是一个接受输入和输出并产生向量的函数。在这种情况下,输入通常是单词序列,输出是该单词序列的候选标记 - 例如,一系列词性标签或解析树。在问题中链接的Ryan McDonald幻灯片的幻灯片8中有一些例子。

麦克唐纳也提出了这一点,但我在此重复一遍:在某些情况下,我们可以纯粹根据输入序列生成一个特征向量(不参考输出)。例如,如果我们要对句子的第2个字词进行标记,那么F就是一个函数',而我们的特征映射只包含当前单词和前一个单词,我们就会合并' F'正如前面的单词和'是'作为当前的词。但在某些情况下(特别是结构化预测')我们也希望根据候选标签包含特征 - 也许是整个输入上的标签序列(请注意,这通常会导致巨大的功能空间)。

另一个注意事项:麦当劳的映射是一个实值向量(R ^ n),但在NLP中,我们经常发现指标特征是足够的,所以很多系统我们都有点向量(仍然在一个非常高的空间)。形式主义并没有改变(只有映射函数f),但简化的假设通常会提高权重向量存储和点积实现的效率。

答案 1 :(得分:1)

这是function notation。它说有一个函数f,其中domain = X x Y和codomain = R ^ n - 其中X是一些输入文本,Y是一些标签。

换句话说,它映射文本和标签的所有可能组合中的每一个,并将它们映射到n维空间中。