我有一些社交网站上的文本语料库,在这些社交网站上,我已经预先指定了大多数命名用户。
我该如何表达我的当前文本以将其传递给spacy
,以便知道它们是命名实体? (遵循instructions似乎有点麻烦)。
我在预处理过程中产生了几种其他格式,但是我可以将它们更改为可以愉快食用的任何样式:
The guy standing behind her is {-[Bob Smith]-} he would be happy
或
[
(span, The guy standing behind her is),
(a, Bob Smith),
(span, he would happy)
]
如果有所作为,我打算使用en_core_web_lg