斯坦福NER CRF实施是否在训练阶段使用句子?

时间:2015-02-20 01:29:33

标签: stanford-nlp

我是CRF的新手,我的一些术语可能会有所偏差,所以请耐心等待。我假设斯坦福NER实现了线性链CRF。

令x为单词序列,y为相应标签的序列。调用x示例和y标签。 x的分量x_i是单词。 y的组件y_i是标签。

  1. 在训练模型时,我们提供了类似的内容:

    James    PERSON
    lives    O
    in       O
    Chicago  LOCATION
    .        O
    Coffee   O
    in       O
    Trieste  LOCATION
    is       O
    great    O
    .        O 
    

    模型是否使用单个句子作为例子?使用上述数据就是其中一个例子:<的里雅斯特咖啡很棒。 > ?这是否意味着特征函数不能依赖于先前句子中的单词?

  2. 如果确实如此,模型如何确保每个例子确实是一个句子?它是否进行任何句子边界检测?是否可以查看例如批量的4个句子?

  3. 提前谢谢你:)

1 个答案:

答案 0 :(得分:3)

两个换行符被视为示例的边界。您的示例可以是从短语到整个文档的任何内容。因此,对于您的示例,如果您想要两个句子作为两个示例:

James    PERSON
lives    O
in       O
Chicago  LOCATION
.        O


Coffee   O
in       O
Trieste  LOCATION
is       O
great    O
.        O