应用错误收集

是的，字矢量相似度＆amp;相对安排可以表明关系。

在最初的Word2Vec论文中，通过使用单词向量来解决单词类比来证明这一点。最着名的例子涉及类比“'男人'是'国王'，因为'女人'是？”。

从'king'的单词向量开始，然后减去'man'的向量，并为'woman'添加向量，你到达坐标系中的一个新点。然后，如果你寻找接近新点的其他词，通常最接近的词将是queen。基本上，方向＆amp;距离有助于找到一个以特定方式相关的词 - 性别逆转的等价词。

而且，在基于新闻的大型语料库中，像“奥巴马”或“布什”这样的着名人物最终会使用更接近他们知名职位的媒介，如“总统”。（在这样的语料库中会有很多语境，其中的词语会立即出现 - “奥巴马总统今天签署......” - 或者只是扮演类似角色 - “总统任命......”或“奥巴马任命......”等等。）

但是，我怀疑与“经理人”面试 - 成绩单示例合作的可能性较小。实现有意义的单词到单词安排取决于共享使用上下文中的大量不同的单词示例。强向量需要数百万到数十亿字的大型语料库。因此，单一经理的成绩单可能不足以获得一个好的模型 - 您需要跨越许多经理的成绩单。

在这样一个语料库中，每个经理的名字可能与仅仅manager的上下文强烈相关。当提到其他角色时，将重复相同的名称，并且成绩单可能不会特别提及有用的第三人称管理行为，使特定的名称向量定位良好。（也就是说，不会有简洁的说明性陈述，例如“John_Smith召集员工会议”，或“John_Smith取消了项目，与其他人一样”......经理John_Smith ......“或”经理取消了项目“。）

可以使用Word2Vec进行信息提取吗？

1 个答案: