我是CRF的新手,我的一些术语可能会有所偏差,所以请耐心等待。我假设斯坦福NER实现了线性链CRF。
令x为单词序列,y为相应标签的序列。调用x示例和y标签。 x的分量x_i是单词。 y的组件y_i是标签。
在训练模型时,我们提供了类似的内容:
James PERSON
lives O
in O
Chicago LOCATION
. O
Coffee O
in O
Trieste LOCATION
is O
great O
. O
模型是否使用单个句子作为例子?使用上述数据就是其中一个例子:<的里雅斯特咖啡很棒。 > ?这是否意味着特征函数不能依赖于先前句子中的单词?
如果确实如此,模型如何确保每个例子确实是一个句子?它是否进行任何句子边界检测?是否可以查看例如批量的4个句子?
提前谢谢你:)
答案 0 :(得分:3)
两个换行符被视为示例的边界。您的示例可以是从短语到整个文档的任何内容。因此,对于您的示例,如果您想要两个句子作为两个示例:
James PERSON lives O in O Chicago LOCATION . O Coffee O in O Trieste LOCATION is O great O . O