应用错误收集

我正在尝试在推文上训练我自己的模型，在我的模型中我关心主题标签中的NE。但是，我无法想到一种方法可以让工具在数据中实际学习这些模式。以下是OpenNLP的示例培训记录：

        RAW Text   ►   Wright State is in #DaytonOH

OpenNLP Training   ►   <START>Wright State<END> is in #<START>Dayton<END><START>OH<END>

现在，如果我在this link之后为斯坦福NER准备相同的文字：

Wright   LOC
State    LOC
is       O
in       O
#        O
Dayton   LOC
OH       LOC

那可以吗？我们怎样才能使它适用于角色级别而不仅仅是令牌级别？你认为CRF模块会学习这样的模式吗？或者我们应该忽略主题标签？

提前致谢。

-H