可以使用Word2Vec进行信息提取吗?

时间:2018-01-26 04:12:40

标签: machine-learning word2vec gensim rnn information-extraction

我正在使用Gensim来训练Word2Vec。我知道如果单词可以互相替换并且在句子中有意义,那么单词的相似性就会受到影响。但是,可以使用单词相似性来提取实体之间的关系吗?

实施例: 我有一堆面试文件,在每次采访中,受访者总是说出他们经理的名字。如果我想从这些采访记录中提取经理的姓名,我可以在文档中找到所有人名的列表(使用nlp),并且使用Word2Vec与“manager”这个词最相似的名称是很可能是经理。

这个思维过程对Word2Vec有意义吗?如果没有,那么ML解决这个问题的方法就是将我的单词嵌入输入序列模型中吗?

1 个答案:

答案 0 :(得分:1)

是的,字矢量相似度&相对安排可以表明关系。

在最初的Word2Vec论文中,通过使用单词向量来解决单词类比来证明这一点。最着名的例子涉及类比“'男人'是'国王',因为'女人'是?”。

从'king'的单词向量开始,然后减去'man'的向量,并为'woman'添加向量,你到达坐标系中的一个新点。然后,如果你寻找接近新点的其他词,通常最接近的词将是queen。基本上,方向&距离有助于找到一个以特定方式相关的词 - 性别逆转的等价词。

而且,在基于新闻的大型语料库中,像“奥巴马”或“布什”这样的着名人物最终会使用更接近他们知名职位的媒介,如“总统”。 (在这样的语料库中会有很多语境,其中的词语会立即出现 - “奥巴马总统今天签署......” - 或者只是扮演类似角色 - “总统任命......”或“奥巴马任命......”等等。)

但是,我怀疑与“经理人”面试 - 成绩单示例合作的可能性较小。实现有意义的单词到单词安排取决于共享使用上下文中的大量不同的单词示例。强向量需要数百万到数十亿字的大型语料库。因此,单一经理的成绩单可能不足以获得一个好的模型 - 您需要跨越许多经理的成绩单。

在这样一个语料库中,每个经理的名字可能与仅仅manager的上下文强烈相关。当提到其他角色时,将重复相同的名称,并且成绩单可能不会特别提及有用的第三人称管理行为,使特定的名称向量定位良好。 (也就是说,不会有简洁的说明性陈述,例如“John_Smith召集员工会议”,或“John_Smith取消了项目,与其他人一样”......经理John_Smith ......“或”经理取消了项目“。)