关于与使用tensorflow代码https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html进行序列标记相关的词嵌入,我有一个非常基本的问题。
根据上面文本中的建议,我以这种格式制作了NER标签: 欧盟B-ORG | 拒绝O | 新B-LOC | 纽约I-LOC | 打电话给O | 至O | 抵制O | 英国B-MISC | 羔羊O | 。
之前我是通过在ngram之间加下划线来找到ngram的向量的,我不确定我是否能够在此使用该技术,因为此序列标记方法要求我们分别标记每个单词,例如纽约被标记为B-LOC,I-LOC,因此在这种情况下,我无法像使用New_york时那样能够提取纽约的单词向量(然后找到相似的单词)。即使我添加了New和York的向量,如果我尝试找出与New York添加的向量相似的词,它也不会像北卡罗来纳州那样给我(我假设不会)。
如何找到使用NER提取的n元语法词向量(使用NER自动查找纽约,然后从训练后的模型中找到与纽约有关的相似词)?