我正在使用Stanford NLP的regexner模块来查找一些由多个令牌组成的自定义实体。但是,当一系列令牌匹配时,每个令牌都会获得独立的NER标记。例如,考虑这个模拟注释:
<token id="1">
<word>123</word>
<lemma>123</lemma>
<NER>SOMENUMBER</NER>
</token>
<token id="2">
<word>321</word>
<lemma>321</lemma>
<NER>SOMENUMBER</NER>
</token>`
假设这些令牌符合这一行:
[0-3] {3} [0-3] {3} SOMENUMBER
使用Stanford NLP库将这些令牌组合成一个令牌还是表明它们来自一个正则表达式序列是否有效?